


20 计 算 机 ‘ 科 / ,学 从 书 


DUM AN BURE 


(加 ) Ze-NianLi Mark S. Drew # 史 元 春 等 译 


Fundamentals 


of Multime 





Fundamentals of Multimedia 


f 


他 ) 机 械 工 业 出 版 社 


2% China Machine Press 


+ 算 机 科 学 从 F 


处 体 技 术 教 程 


(加 ) Ze-Nian Li Mark S. Drew # 等 译 


Fundamentals 
of Mu Itimedi a 


Ze-Nian O 


u $ 
` 
w 





Fundamentals of Multimedia 


机 械 工 业 出 版 社 


China Machine Press 





本 书 从 多 媒体 编著 和 数据 表现 、 多 媒体 数据 压缩 以 及 多 媒体 通信 和 检索 三 个 层面 对 多 媒 
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The minimum sampling 
frequency of an A/D converter 
should be at least twice the 
frequency of the signal being 
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A 15 second clip of music from a compact disc was digitized at 
three different sampling rates (11 kHz, 22 kHz, and 44 Hz) with 
8-bit precision. The effects of the different sampling rates are 
clearly audible. This is a demonstration of the Nyquist 
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A 图 2-4 颜色 和 字体 ， 感 谢 Ron Vetter 





A 图 2-6 调 色 板 





a) 24 位 彩色 图 像 forestfire.bmp b) 图 像 的 R 颜色 通道 
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c) 图 像 的 G 颜色 通道 d) AKA B 颜色 通道 


A 图 3-5 高 分 状 率 的 彩色 图 像 和 单独 的 R、G、B 颜色 通道 图 像 





A 图 3-7 8 位 彩色 图 像 的 例子 A 图 3-17 用 户 指定 的 低 质量 的 JPEG 图 像 
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P 图 4-14 CIELAB 模型 
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RGB 立方 体 CMY 立方 体 


A 图 4-15 RGB 和 CMY 颜色 立方 体 


a) RGB 用 于 指定 加 性 颜色 b) CMY 用 于 指定 减 性 颜色 


A 图 4-16 加 性 和 减 性 颜色 
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A 图 4-18 彩色 图 像 的 YUV 分解 





A 图 4-21 SMPTE 监视 器 色 域 





a) 原 图 





c) 以 0.25bpp JK SAY JPEG FAIR (AL) All JPEG 2000 图 像 (4i) 


A 图 9-13 JPEG fll JPEG 2000 的 压缩 






a) 背景 的 子 图 像 全 景 图 


b) 蓝屏 图 中 的 前 景 对 象 ( 风 和 销 手 ) c) 合成 的 视频 场景 风笛 手 图 像 来 自 Simon Fraser 
University 风笛 乐队 ， 在 此 感谢 


A 图 12-10 子 图 像 编码 





运动 区 域 : 直升机 运动 区 域 : 人 运动 区 域 : 船 


A 图 12-19 MPEG-7 视频 段 
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全 图 18-3 颜色 直方 图 的 查找 结果 〈 一 些小 图 片 来 自 Corel Gallery, Corel 拥有 其 版 权 ) 
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A 图 18-8 C-BIRD 界面 ， 显 示 使 用 基本 的 椭圆 进行 对 象 选择 
(本 图 片 来 自 Corel Gallery, Corel 拥有 其 版 权 ) 


q 4 18-10 模型 和 目标 图 像 
(Active Perception 的 封面 来 自 
Lawrence Erlbaum Associates 
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a) 示例 模型 图 像 b) 示例 数据 库 图 像 ， 其 中 包含 模型 书 


B 图 18-13 颜色 场景 





b) 数据 库 图 像 的 颜色 场景 





出 版 者 的 话 


文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 垄断 性 的 优势 ; 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 辈出 、 独 领 风 又 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 计 算 栅 
学 科 中 的 许多 泰 出 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科学 著作 ， 不 仅 壁 
划 了 研究 的 范畴 ， 还 揭 雍 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅 猛 ， 对 专业 人 才 的 需求 日 
益 人 迫切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 、 从 业 人 员 较 少 的 现状 下 ， 美 国 等 发 达 国 家 
在 其 计算 机 科学 发 展 的 几 十 年 间 积淀 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国 
外 优秀 计算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 
设 真正 的 世界 一 流 大 学 的 必由之路 。 

机 械 工业 出 版 社 华章 图 文 信息 有 限 公 司 较 早 意 识 到 “出 版 要 为 教育 服务 ”"。 自 1998 年 开始 ， 
华章 公司 就 将 工作 重点 放 在 了 六 选 、 移 译 国外 优秀 教材 上 。 经 过 几 年 的 不 懈 努 力 ， 我 们 与 
Prentice Hall, Addison-Wesley, McGraw-Hill, Morgan Kaufmann 等 世界 著名 出 版 公司 建立 了 
良好 的 合作 关系 ， 从 它们 现 有 的 数 百 种 教材 中 王选 出 Tanenbaum，Stroustrup，Kernighan,， 
Jim Gray 等 大 师 名 家 的 一 批 经 典 作品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 
究 及 度 藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 从 书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 昂 力 衷 助 ， 国 内 的 专家 不 仅 提供 了 中 
肯 的 选 题 指导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 在 
中 国 的 传播 ， 有 的 还 专程 为 其 书 的 中 译本 作 序 。 记 今 ,“ 计 算 机 科学 丛书 ”已 经 出 版 了 近 百 个 
品种 ， 这 些 书籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采用 为 正式 教材 和 参考 书籍 ， 为 
进一步 推广 与 发 展 打 下 了 坚实 的 基础 。 

随 着 学 科 建 设 的 初步 完善 和 教材 改革 的 逐渐 深化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 
用 都 步 人 一 个 新 的 阶段 。 为 此 ， 华 章 公 司 将 加 大 引进 教材 的 力度 ， 在 “华章 教育 ”的 总 规划 
之 下 出 版 三 个 系列 的 计算 机 教材 : 除 “ 计 算 机 科学 丛书 ”之 外 ， 对 影印 版 的 教材 ， 则 单独 开 
辟 出 “经 典 原版 书库 ”; 同时 ， 引 进 全 美 通行 的 教学 辅导 书 “Schaum's Outlines” RIAR 
“全 美 经 典 学 习 指导 系列 ”。 为 了 保证 这 三 套 从 书 的 权威 性 ， 同 时 也 为 了 更 好 地 为 学 校 和 老师 
们 服务 ， 华 章 公 司 聘请 了 中 国 科学 院 、 北 京 大 学 、 清 华 大 学 、 国 防 科技 大 学 、 复 旦 大 学 、 上 
海 交 通 大 学 、 南 京 大 学 、 浙 江 大 学 、 中 国 科技 大 学 、 哈 尔 滨 工业 大 学 、 西 安 交 通 大 学 、 中 国 
入 民 大 学 、 北 京 航 空 航天 大 学 、 北 京 邮电 大 学 、 中 山大 学 、 解 放 军 理工 大 学 、 郑 州 大 学 、 湖 
北 工学 院 、 中 国 国家 信息 安全 测评 认证 中 心 等 国内 重点 大 学 和 科研 机 构 在 计算 机 的 各 个 领域 
的 著名 学 者 组 成 “专家 指导 委员 会 "， 为 我 们 提供 选 题 意 见 和 出 版 监督 。 

这 三 套 丛 书 是 响应 教育 部 提出 的 使 用 外 版 教材 的 号 召 ， 为 国内 高 校 的 计算 机 及 相关 专业 
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的 教学 度 身 订 造 的 。 其 中 许多 教材 均 已 为 M. I. T., Stanford, U.C. Berkeley, C. M. U. 等 世界 
名 牌 大 学 所 采用 。 不 仅 涵 盖 了 程序 设计 、 数 据 结 构 、 操 作 系 统 、 计 算 机 体系 结构 、 数 据 库 、 
编译 原理 、 软 件 工 程 、 图 形 学 、 通 信 与 网 络 、 离 散 数学 等 国内 大 学 计算 机 专业 普遍 开设 的 核 
心 课程 ， 而 且 各 具 特 色 一 一 有 的 出 自 语言 设计 者 之 手 、 有 的 历经 三 十 年 而 不 衰 、 有 的 已 被 全 
世界 的 几 百 所 高 校 采 用 。 在 这 些 圆 熟 通 博 的 名 师 大 作 的 指引 之 下 ， 读 者 必 将 在 计算 机 科学 的 
宫殿 中 由 登 党 而 入 室 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 
图 书 有 了 质量 的 保证 ， 但 我 们 的 自 标 是 尽善尽美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 
的 重要 帮助 。 教 材 的 出 版 只 是 我 们 的 后 续 服务 的 起 点 。 华 章 公 司 欢迎 老师 和 读者 对 我 们 的 工 
作 提 出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


电子 邮件 : hzjsj@hzbook.com 

联系 电话 : (010) 68995264 

联系 地 址 : 北京 市 西城 区 百 万 庄 南 街 1 号 
邮政 编码 : 100037 
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译 者 序 


如 今 ， 多 媒体 这 个 词 已 经 不 是 十 多 年 前 那个 笼 单 着 神秘 色彩 的 专业 术语 了 ， 音 视频 等 基本 的 
多 媒体 功能 部 件 已 经 成 为 计算 机 必要 且 廉 价 的 组 成 部 分 。 多 媒体 技术 也 逐渐 成 为 计算 机 学 科 的 必 
修 课程 之 一 ， 从 专科 课程 、 本 科 课 程 到 研究 生 课程 都 有 多 种 课程 设置 ， 这 是 一 个 有 趣 的 现象 ， 为 
什么 呢 ? 

这 个 现象 不 但 生动 体现 了 技术 与 应 用 相互 促进 的 关系 ， 而 且 深 刻 反映 了 多 媒体 对 计算 机 技术 
与 应 用 的 强烈 冲击 。 计 算 机 的 处 理 对 象 经 历 了 从 数值 、 文 字 到 多 媒体 的 发 展 历程 ， 计 算 机 也 相应 
地 扮演 着 实验 室 计算 工具 、 办 公 室 文字 处 理工 具 和 个 人 信息 交流 工具 的 不 同 角 色 ， 多 媒体 给 人 们 
带 来 生动 体验 的 同时 ， 也 对 计算 机 的 处 理 能 力 提出 了 全 方位 的 要 求 。 以 图 形 图 像 、 音 视频 为 代表 
的 多 媒体 ， 要 求 海量 的 存储 、 高 速 的 计算 、 即 时 的 通信 、 便 捷 的 交互 ， 对 计算 机 系统 的 信息 表示 、 
计算 处 理 、 存 储 检索 、 网 络 通信 、 人 机 交互 提出 了 全 面 和 震动 性 的 技术 挑战 ， 成 为 从 20 世纪 80 
年 代 末 以 来 的 一 个 持续 的 热点 研究 领域 。 

然而 ， 正 是 由 于 多 媒体 技术 涉及 的 内 容 广泛 ， 使 得 多 媒体 技术 课程 的 内 容 既 可 散布 于 计算 机 
专业 的 一 些 传统 课程 中 ， 也 可 以 因 授 课 对 象 、 选 题 重 点 、 应 用 与 研究 等 不 同 的 考虑 形成 新 的 不 同 
课程 ， 因 此 ， 多 媒体 技术 相关 的 书 很 多 ， 教 材 的 选择 倒 成 了 难题 。 

我 认为 ， 加 拿 大 Simon Fraser 大 学 的 Ze-Nian Li (F) M Mark S. Drew 两 位 编写 的 这 本 
书 是 一 本 很 难得 的 好 教材 ， 因 为 它 具 有 以 下 特点 : 

1) 内 容 全 面 ， 涉 及 多 媒体 数据 表示 与 编著 、 数 据 编 码 、 压 缩 、 通 信 、 检 索 等 ， 教 师 可 以 有 
选择 地 采用 其 中 的 内 容 : 

2) 原理 突出 ， 能 在 有 限 的 篇 幅 内 从 繁杂 的 内 容 中 将 基本 原理 阐述 清楚 ， 这 源 于 作者 在 该 领 
域 多 年 的 研究 工作 和 对 该 领域 的 深刻 理解 ; 

3) 练习 得 当 ， 做 每 章 后 面 的 习题 是 学 习 掌 握 相关 内 容 的 必要 环节 ， 本 书 的 练习 难 易 适当 、 
操作 性 强 ; 

4) 索引 丰富 ， 不 但 有 分 门 别 类 的 网 站 和 参考 书 的 索引 ， 而 且 每 章 后 的 “进一步 探索 ”很 能 
启发 学 生 的 思维 。 成 就 这 本 优秀 教材 的 是 两 位 作者 近 10 年 的 多 媒体 技术 课程 的 教学 经 验 ， 可 以 
说 这 些 教材 内 容 真正 来 源 于 课堂 ， 所 以 对 内 容 的 前 裁 适当 。 

当然 ， 对 多 媒体 技术 的 研究 者 与 开发 人 员 来 讲 ， 本 书 也 是 一 本 非常 有 用 的 技术 参考 书 ， 它 全 
面 、 适 当 、 翔 实 ， 适 合作 为 课外 学 习 与 研究 应 用 的 参考 。 

由 于 工作 繁忙 ,， 翻译 时 间 拖 得 比较 长 ， 非 常 感谢 出 版 社 对 我 的 体谅 。 由 于 时 间 和 能 力 的 限制 ， 
车 有 错误 和 不 妥 之 处 敬 请 读者 指正 。 

参加 本 书 翻 译 的 还 有 : BR. A. HR. BR. ZR. BS. OK. RoR. BH. 
Sk. Ze. WW. 

RAR 
2005 年 于 清华 大 学 计算 机 系 
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多 媒体 课程 逐渐 成 为 计算 机 科学 和 计算 机 工程 学 科 的 必修 课程 之 一 ， 尤 其 是 现在 ， 多 媒体 涉 
及 计算 机 科学 的 众多 领域 。 多 媒体 最 初 被 认为 是 一 个 纵向 应 用 领域 ， 也 就 是 说 ， 它 有 一 套 独 有 的 
方法 。 然 而 ， 像 普 适 计算 一 样 ， 多 媒体 现在 已 经 成 为 一 个 横向 的 应 用 领域 ， 并 且 是 许多 学 科 的 重 
要 研究 内 容 ， 如 计算 机 图 形 学 、 图 像 处 理 、 数 据 库 、 实 时 系统 、 操 作 系统 、 信 息 检索 、 计 算 机 网 
络 、 计 算 机 视觉 等 。 多 媒体 不 再 是 一 种 玩具 ， 而 是 成 为 我 们 进行 工作 、 思 考 的 技术 环境 的 重要 组 
成 部 分 。 本 书面 向 大 学 多 媒体 教学 的 需求 ， 介 绍 计算 机 科学 发 展 历程 中 与 多 媒体 相关 的 部 分 ， 以 
及 与 多 媒体 相关 的 计算 机 科学 和 工程 领域 的 其 他 问题 。 

本 书 不 是 介绍 简单 的 设计 问题 ， 而 是 面向 更 高 级 的 读者 ， 也 不 是 一 本 参考 书 ， 更 像 是 一 本 传 
统 意义 上 的 教材 。 虽然 我 们 必然 要 在 书 中 讨论 多 媒体 工具 , 但 更 多 地 是 讲述 这 些 工 具 的 工作 原理 。 
学 完 本 书 的 读者 能 够 真正 掌握 多 媒体 最 基础 的 原理 。 

本 书 内 容 丰富 ， 能 够 使 学 生 利用 这 些 知识 开展 多 媒体 上 的 有 趣 而 奇妙 的 实践 项 目 和 交互 式 项 
目 ， 甚 至 能 有 志 于 传授 这 些 概念 。 


本 书 读者 对 象 


本 书 介绍 多 媒体 领域 的 基本 知识 ， 定 位 于 计算 机 科学 与 计算 机 工程 专业 的 学 生 。 本 书 的 目标 
读者 是 本 科 高 年 级 的 学 生 ， 也 能 用 于 更 高 年 级 的 课程 ， 对 于 想 了 解 最 新 多 媒体 技术 的 专业 人 员 ， 
以 及 任何 有 兴趣 的 人 ， 它 也 是 一 本 很 好 的 参考 书 。 对 于 没有 接触 过 本 学 科 的 研究 生 ， 如 果 想 拥有 
扎实 的 基础 ， 阅 读本 书 会 必定 会 受益 。 

本 书 重 点 介绍 概念 ， 而 不 是 应 用 。 在 多 媒体 课 上 ， 教 师 将 教授 概念 、 测 试 概念 ， 但 同样 也 让 
学 生 用 已 有 的 编程 技巧 来 解决 多 媒体 问题 。 本 书 的 配套 网 站 给 出 了 一 些 多 媒体 应 用 的 代码 ， 以 及 
精 选 的 课程 设计 和 其 他 有 用 的 资源 。 

本 书 介绍 的 概念 会 在 课程 设计 中 得 到 体现 。 我 们 假设 读者 会 编程 ， 而 且 乐 于 学 习 使 用 新 的 纺 
程 工具 。 本 书 不 把 重点 放 在 工具 讲解 上 ， 而 是 强调 学 生 不 要 只 会 用 工具 。 应 用 本 书 所 介绍 的 方法 
和 思想 ， 学 生 能 够 通过 自学 学 到 更 多 ， 一 种 方式 是 通过 设 定 的 工作 场景 。 利 用 本 书 学 习 多 媒体 课 
程 的 学 生 ， 能 够 在 四 年 级 或 者 更 早 的 时 候 开始 从 事 多 媒体 相关 工作 ， 这 并 不 稀奇 。 

本 书 选择 的 内 容 包括 读者 在 实际 应 用 中 会 遇 到 的 问题 。 有 些 内 容 比较 简单 但 比较 新 ， 有 些 内 
容 比较 复杂 ， 但 对 这 个 新 兴 的 领域 来 说 ， 这 是 不 可 避免 的 。 


作者 在 实际 教学 中 是 否 使 用 过 本 书 


从 1996 年 开始 ， 我 们 开始 教授 本 科 生 三 年 级 的 多 媒体 系统 课程 ， 我 们 使 用 的 介绍 性 材料 正 
是 本 书 的 前 身 。 在 一 个 学 期 的 时 间 里 可 能 不 能 讲授 完 本 书 的 所 有 内 容 ， 我 们 通常 安排 讲授 第 一 、 
二 部 分 中 大 部 分 内 容 ， 加 上 简单 介绍 第 三 部 分 的 某 些 章节 。 

至 于 更 高 级 的 介绍 性 课程 ， 我 们 用 本 书 的 资料 上 过 为 期 一 学 期 的 研究 生 课程 。 本 科 生 四 年 级 
或 者 研究 生 的 课程 可 以 考虑 讲授 本 书 的 第 一 、 二 部 分 内 容 ， 以 及 第 三 部 分 的 某 些 内 容 ， 同 时 可 以 
使 用 本 书包 括 的 研究 文献 和 相关 会 议 的 研究 结果 。 

我 们 试图 满足 本 科 生 和 研究 生 的 要 求 ， 主 要 针对 本 科 生 ， 但 涵盖 一 些 更 高 级 的 内 容 。 标 有 星 
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号 的 章节 在 初次 阅读 时 可 以 跳 过 。 
本 书包 含 的 内 容 


第 一 部 分 介绍 多 媒体 技术 相关 的 概念 、 发 展 历史 和 现状 。 特 别 要 指出 的 是 ， 因 为 要 使 用 软件 
工具 完成 多 媒体 作业 ， 所 以 这 部 分 对 多 媒体 工具 进行 概述 ， 并 且 讲 述 多 媒体 著作 工具 的 细节 。 数 
据 表现 对 多 媒体 很 重要 ， 本 书 将 介绍 多 媒体 应 用 中 最 重要 的 数据 表现 方式 ， 详 细 讨 论 图 像 数据 、 
视频 数据 、 音 频数 据 。 颜 色 对 多 媒体 程序 是 至 关 重 要 的 ， 这 部 分 将 介绍 颜色 对 多 媒体 的 影响 和 
作用 。 

第 二 部 分 介绍 如 何在 屏幕 上 和 扬声器 中 播 出 多 媒体 数据 。 数 据 压缩 是 多 媒体 广泛 应 用 的 重要 
技术 , 这 部 分 将 介绍 无 损 压 缩 和 有 损 压缩 技术 。 对 后 者 , JPEG 静止 图 像 压缩 标准 (包括 JPEG 20009 
显然 是 最 重要 的 ， 所 以 会 详细 介绍 JPEG。 但 因为 静止 图 形 很 重要 ， 而 视频 更 重要 ， 因 此 这 部 分 
还 介绍 MPEG 系列 标准 : MPEG-1, MPEG-2, MPEG-4, MPEG-7 以 及 其 他 更 高 版 本 。 另 外 ， 第 
二 部 分 还 介绍 了 基本 的 音频 压缩 技术 ， 简 要 讲述 MPEG 音频 ， 其 中 包括 MP3. 

第 三 部 分 介绍 多 媒体 技术 对 网 络 和 系统 的 种 种 需求 。 接 着 介绍 使 交互 式 多 媒体 成 为 可 能 的 网 
络 技术 和 协议 。“ 媒 体 点 播 " “IP 上 的 多 媒体 “AFM 上 的 多 媒体 人 “无 线 网 络 上 的 多 媒体 ”都 
在 第 三 部 分 加 以 介绍 。 基 于 内 容 的 检索 对 于 数字 图 书馆 和 交互 式 多 媒体 尤其 重要 ， 因 此 这 部 分 还 
将 详细 介绍 与 此 相关 的 思想 和 系统 。 


本 书 的 网 站 
本 书 的 网 站 是 www.cs.sfu.ca/mmbook。 网 站 中 包括 本 书 的 图 片 、 勘 误 表 、 教 学 用 的 程序 以 及 


动态 更 新 的 每 章 的 参考 资料 的 链接 。 由 于 这 些 链 接 本 身 是 不 断 更 新 的 (当然 URL 也 会 变动 )， 因 
此 以 在 线 方式 而 不 是 纸 质 文本 提供 。 


教师 资源 
Prentice Hall 有 一 个 网 站 提供 相关 教学 资源 ， 包 括 众多 讲义 、 一 学 期 课时 教学 大 岗 、 教 学 安 


排 、 练 习 答案 、 示 例 作 业 和 解答 、 示 例 测 试卷 以 及 更 多 的 测试 试题 。 需 要 这 些 资源 的 教师 可 填写 
书后 的 “教学 支持 说 明 ” 并 与 出 版 社 联系 。 
致谢 
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第 一 部 分 


第 1 章 多 媒体 导论 

第 2 章 多 媒体 编著 和 工具 
第 3 章 图 形 和 图 像 的 数据 表现 
第 4 章 图 像 和 视频 中 的 颜色 
第 5 章 视频 中 的 基本 概念 

第 6 章 数字 音频 基础 


多 媒体 导论 

作为 多 媒体 的 导论 ， 第 1 章 围绕 “什么 是 多 媒体 ”进行 论述 。 我 们 将 介绍 多 媒体 的 发 展 历 
史 和 超 文 本 与 超 媒 体 的 演变 过 程 ， 然 后 详细 讨论 与 实践 问题 有 关 的 多 媒体 软件 工具 ， 这 些 工具 
是 我 们 创建 多 媒体 内 容 的 基本 手段 。 然 而 ， 多 媒体 作品 还 远 非 这 些 部 分 的 简单 相 加 ， 因 此 ， 第 
2 章 讨论 多 媒体 编著 设计 的 基本 要 素 并 对 编著 方法 加 以 分 类 。 该 章 还 列 出 当前 一 些 重要 的 多 媒 
体 编著 工具 。 


多 媒体 数据 表现 

和 许多 领域 一 样 ， 如 何 最 好 地 表现 数据 也 是 多 媒体 研究 中 的 一 个 至 关 重 要 的 问题 。 第 3 章 ~ 
第 6 章 讨论 的 就 是 这 一 问题 ， 其 中 列举 了 多 媒体 应 用 中 最 重要 的 一 些 数据 表现 。 因 为 最 受 关注 
的 是 图 像 、 运 动 图 片 和 音频 ， 所 以 我 们 在 第 3 章 中 开始 讨论 图 形 和 图 像 的 数据 表现 ， 然 后 在 第 I 
5 章 继续 讨论 视频 中 的 基本 概念 。 在 开始 第 6 章 的 讨论 之 前 ， 我 们 先 在 第 4 章 讨论 颜色 使 用 的 
一 些 问 题 ， 因 为 颜色 在 多 媒体 程序 中 尤为 重要 。 





第 1 章 多 媒体 导论 


1.1 什么 是 多 媒体 

人 们 在 使 用 “多 媒体 ”这 个 术语 时 ， 往 往 对 这 个 术语 有 不 尽 相 同 甚 至 截然 相反 的 理解 。PC 
销售 商 希 望 我 们 将 多 媒体 理解 成 这 样 的 一 台 PC: 具有 音效 功能 ， 带 有 DVD 光驱 ， 也 许 还 有 能 够 
理解 附加 的 多 媒体 指令 的 性 能 强劲 的 微 处 理 器 。 而 娱乐 消费 产品 的 销售 商 则 会 将 多 媒体 理解 为 具 


， 有 上 百 个 频道 的 交互 式 有 线 电视 ， 或 者 是 通过 高 速 mternet 连接 提供 的 类 似 于 有 线 电 视 的 服务 。 


计算 机 学 科 的 学 生 则 会 从 面向 应 用 的 角度 理解 多 媒体 ， 多 媒体 是 由 使 用 多 模 态 技术 〈 包 括 文 
AL AR. 图形、 动画 、 视 频 和 音频 等 ， 以 及 交互 活动 ) 的 应 用 程序 构成 的 。 在 文化 领域 中 非常 
流行 的 “融合 ”观点 ， 在 科学 界 同样 广 为 接受 。 这 一 观点 反映 在 多 媒体 领域 ， 则 是 PC, DVD, 
游戏 设备 、 数 字 电 视 、 通 过 机 项 盒 进行 网 络 浏览 以 及 无 线 传输 等 多 种 技术 的 融合 ， 也 许 在 不 久 的 
将 来 ， 这 种 融合 就 可 以 进一步 扩展 为 功能 全 面 的 多 媒体 产品 。 硬 件 技术 的 提高 将 不 断 推动 这 类 设 
备 的 发 展 ， 而 现 有 的 成 果 已 经 令 人 心动 一 一 多 媒体 业已 成 为 计算 机 科学 领域 中 最 令 人 感 兴趣 的 一 
个 部 分 。 很 多 过 去 单独 研究 的 内 容 , 在 多 媒体 这 个 新 的 领域 找到 了 共同 点 , 进而 促进 了 这 种 融合 。 
图 形 、 可 视 化 、HCI、 计 算 机 视觉 、 数 据 压缩 、 图 论 、 网 络 和 数据 库 系 统一 一 都 将 对 目前 的 多 媒 
体 的 发 展 产生 重要 的 影响 。 


1.1.1 多 媒体 的 组 成 部 分 


多 媒体 中 的 文本 、 音 频 、 图 像 、 图 形 、 动画 和 视频 等 多 模 态 技术 在 以 下 领域 中 得 到 广泛 应 用 : 

。 视频 会 议 。 

。 高 等 教育 中 的 远程 教学 。 

。 远程 医疗 。 

。 协同 工作 环境 ， 在 该 环境 下 ， 可 以 支持 用 户 对 共享 文档 进行 编辑 或 是 共同 参与 一 个 电脑 游 

戏 。 

。 在 大 信息 重视 频 和 图 像 数 据 库 中 对 目标 可 视 对 象 进行 搜索 。 

。“ 增 强 ” 现 实 ， 在 场景 中 加 入 具有 真实 形象 的 计算 机 图 形 和 视频 对 象 ， 以 便 考 虑 对 象 和 光 

线 的 物理 特性 。 

。 用 音频 信息 对 视频 会 议 的 参与 者 进行 定位 ， 并 考虑 参与 者 的 注视 方向 和 注意 力 。 

。 在 新 视频 中 构建 可 搜索 的 特征 ， 支 持 多 种 不 同 码 率 的 全 新 的 、 可 伸缩 的 多 媒体 产品 。 

。 可 编辑 〈editable) 的 多 媒体 组 件 ， 即 允许 用 户 自 行 决定 哪些 组 件 、 视 频 或 图 形 是 可 见 的 ， 

并 允许 用 户 对 组 件 进行 移动 或 删除 等 操作 ， 并 使 组 件 具 有 分 布 式 的 结构 。 

。 建立 “ 道 好 莱 坞 ” 式 的 应 用 程序 ， 用 以 重 现 视 频 产 生 的 过 程 ， 并 使 用 情节 串 连 图 板 来 删节 

和 简化 视频 的 内 容 。 

。 使 用 语音 识别 技术 建立 交互 环境 一 -例如 典 入 在 厨房 墙壁 中 的 Web 浏览 器 。 

从 计算 机 专业 人 员 的 角度 看 来 ， 多 媒体 技术 之 所 以 有 如 此 大 的 吸引 力 ， 是 因为 很 多 传统 计算 
机 科学 领域 中 的 研究 内 容 都 与 它 具 有 某 种 关联 ， 如 网 络 、 操 作 系统 、 实 时 系统 、 视 觉 和 信息 检索 
等 等 。 与 数据 库 技术 类 似 ， 多 媒体 和 很 多 传统 领域 都 产生 了 交叉 。 
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112 多 媒体 的 研究 课题 和 研究 项 目 

对 于 计算 机 科学 领域 的 研究 者 来 说 ， 多 媒体 包括 广泛 的 研究 课题 [1]: 

。 多 媒体 处 理 和 编码 ”其 中 包括 多 媒体 内 容 的 分 析 ， 基 于 内 容 的 多 媒体 检索 ， 多 媒体 安全 ， 

音频 /图 像 / 视 频 的 处 理 和 压缩 等 。 

。 多 媒体 系统 支持 和 网 络 ”人们 将 这 类 问题 理解 为 网 络 协议 、Internet、 操 作 系统 、 客 户 机 和 

服务 器 、 服 务 质量 “QoS) 和 数据 库 。 

。 多 媒体 工具 、 端 系统 和 应 用 程序 ”其 中 包括 超 媒 体系 统 、 用 户 接口 、 编 著 系 统 、 多 模 态 交 

互 和 集成 :“ 无 所 不 在 性 ” 
学 习 和 设计 以 及 虚拟 环境 中 的 应 用 程序 。 

多 媒体 领域 的 研究 同样 影响 着 计算 机 科学 的 其 他 分 支 。 例 如 ， 数 据 挖掘 是 目前 一 个 重要 的 研 
究 领 域 ， 而 包含 多 媒体 数据 对 象 的 大 型 数据 库 正 是 该 领域 研究 的 课题 。 远 程 医疗 应 用 程序 〈 例 如 
“远程 病人 诊断 咨询 ”系统 ) 是 对 现 有 的 网 络 构架 提出 严峻 考验 的 多 媒体 应 用 程序 。 

目前 的 多 媒体 研究 项 目 

目前 已 经 有 不 少 多 媒体 的 研究 项 目 ， 下 面 将 简单 介绍 其 中 的 一 些 项 目 。 

基于 摄像 头 的 对 象 跟踪 技术 始终 是 一 个 重要 的 研究 内 容 。 诸 如 工业 控制 或 游戏 这 样 的 系统 对 
于 真实 环境 例如 棋盘 游戏 ) 中 的 运动 模型 (玩具 ) 往往 有 着 很 强 的 依赖 性 ， 对 和 象 跟踪 技术 的 一 
个 目标 就 是 为 此 类 应 用 开发 控制 系统 。 对 控制 对 象 〔 玩 具 ) 进行 跟踪 就 可 以 使 用 户 对 整个 过 程 进 
行 控制 。 

3D 运动 捕捉 技术 可 以 用 来 采集 多 个 演员 的 动作 ， 这 样 虚拟 《virtual) BPRS (real) 演 
员 的 动作 就 可 以 用 来 自动 生成 逼真 的 动画 (animated) 模型 并 使 之 具有 自然 的 运动 行为 。 

多 个 摄像 头 在 多 角度 下 或 是 单一 摄像 头 在 不 同 的 光照 条 件 下 都 可 以 精确 地 获得 对 材料 形状 和 
表面 性 质 进行 描述 所 需 的 数据 ， 进 而 自动 生成 合成 的 图 形 模型 。 这 一 技术 可 以 用 来 实现 虚拟 演员 
的 超 写实 合成 。 

3D 捕捉 技术 的 发 展 ， 基 本 可 以 满足 动态 捕获 人 说 话 时 面部 表情 的 需要 ， 从 而 可 以 根据 语音 来 
合成 高 度 逼 真 的 脸 部 动画 。 

针对 残障 人 士 的 多 媒体 应 用 ， 尤 其 是 对 于 视力 不 佳 者 和 老人 ， 也 是 一 个 得 到 广泛 关注 的 研究 
领域 。 

“数字 时 装 ” 的 研究 目标 是 开发 可 以 进行 交互 通信 的 智能 服装 ， 这 类 服装 可 以 使 用 无 线 通信 技 
术 来 人 工地 促进 人 们 在 社交 场合 中 的 交互 。 这 里 的 创新 是 将 用 户 的 某 些 想法 和 感觉 广播 出 去 ， 以 
便 和 其 他 配置 有 相似 设备 的 用 户 进 行 交流 。 

Georgia Tech 的 Electronic Housecall 系统 为 病人 在 其 家 中 提供 交互 式 的 健康 监护 服务 , CHR 
于 网 络 的 传输 能 力 ， 对 现 有 的 系统 提出 了 很 高 的 要 求 。 

行为 科学 中 的 模型 可 以 用 来 对 人 们 的 交互 行为 进行 建 模 ， 从 而 扩展 得 到 虚拟 角色 间 的 自然 交 
互 。 这 类 “增强 交互 ”应 用 可 以 用 来 开发 真实 用 户 和 虚拟 用 户 之 间 的 交互 接口 ， 完 成 诸如 让 计算 
机 讲 故事 这 种 任务 。 

这 些 不 同 的 应 用 领域 大 大 推动 了 计算 机 科学 的 发 展 ， 不 断 刺 激 新 应 用 的 产生 ， 并 强烈 地 吸引 
着 计算 机 行业 的 实践 者 。 


1.2 多 媒体 和 超 媒 体 


为 了 将 多 媒体 放置 在 一 个 正确 的 上 下 文 环境 中 ， 本 节 我 们 将 简单 回顾 多 媒体 的 历史 ， 多 媒体 
历史 中 最 近 比 较 关注 的 是 多 媒体 和 超 媒 体 之 间 的 联结 。 然 后 我 们 介绍 用 于 创建 多 媒体 内 容 的 软件 
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工具 。 这 将 为 我 们 在 第 2 章 中 深入 了 解 多 媒体 产品 和 内 容 的 集成 商定 基础 。 
1.2.1 多 媒体 的 历史 


使 用 多 媒体 作为 交流 手段 的 想法 可 能 源 于 报纸 ， 报 纸 大 量 使 用 文本 、 图 形 和 图 片 ， 是 最 早 的 
大 信息 量 交流 媒介 。 

运动 图 片 诞 生 于 19 世纪 30 年 代 ， 它 最 初 的 目的 是 为 了 记录 那些 肉眼 无 法 感知 的 高 速 运动 。 
Thomas Alva Edison 在 1887 年 发 明了 可 以 拍摄 运动 图 片 的 相机 , 于 是 在 1910~1927 年 间 无 声 电影 
HPT. 192748, The Jazz Singer 的 上 映 结束 了 无 声 电影 的 时 代 。 

1895 年 ，Guglielmo Marconi 在 意大利 的 Pontecchio 首次 成 功 地 发 送 了 无 线 电信 号 。 几 年 后 
(1901 F), 无线电 信号 又 成 功 地 横 穿 了 大 西洋 。 无 线 电 最 初 是 用 于 发 送 电报 的 ， 而 现在 则 成 为 了 
语音 广播 的 主要 媒介 。1909 Æ, Marconi 获得 诺 贝 尔 物理 学 奖 。( 在 语音 传播 的 研究 领域 ， 来 自 
Quebec 的 Reginald A. Fessenden 几 年 前 早已 超越 了 Marconi， 但 是 并 非 所 有 的 发 明 家 都 得 到 了 应 
得 的 荣誉 。 尽 管 如 此 ，Fessenden 在 1928 年 得 到 了 250 万 美元 作为 对 其 失去 的 专利 的 补偿 。) 

电视 是 20 世纪 诞生 的 全 新 的 传播 媒介 。 它 使 得 视频 成 为 一 种 广泛 应 用 的 媒介 ， 从 而 改变 了 
大 规模 传输 领域 。 

而 在 计算 机 和 多 媒体 之 间 建 立 联 系 的 想法 ， 事 实 上 是 不 久之 前 才 出 现 的 : 

。1945 Æ Vannevar Bush (1890—1974) 在 其 具有 里 程 碑 意 义 的 著作 [2] 中 描述 了 一 个 名 为 

“Memex” 的 超 媒 体系 统 。Memex 是 一 个 具有 普遍 适用 性 的 个 性 化 存储 设备 ， 其 中 甚至 包 
括 了 关联 链接 的 概念 一 一 它 确实 可 以 被 认为 是 万 维 网 的 先驱 。 二 战 后 ,大 约 有 6000 位 在 战 
时 为 了 战争 胜利 而 辛勤 工作 的 科学 家 发 现 他 们 现在 有 时 间 和 精力 去 考虑 一 些 其 他 问题 ， 
Memex 正 是 这 种 情况 下 的 产物 。 

e 1960 Ted Nelson 开始 了 Xanadu 项 目的 研究 ， 并 发 明了 术语 “ 超 文 本 ”。Xanadu 是 第 
一 次 针对 超 文 本 系统 的 研究 尝试 ，Nelson 称 超 文本 系统 为 “存放 文本 的 神奇 场所 ”。 

。1967 Ẹ Nicholas Negroponte 在 MIT 组 建 了 Architecture Machine 研究 组 。 

*。1968 年 ” 受 Vannevar Bush 的 As We May Think 一 书 的 影响 和 启示 , Douglas Engelbart 展示 
了 另 一 个 早期 的 超 文 本 程序 On-Line System (NLS). Engelbart 在 Stanford 研究 院 的 研究 小 
组 一 直 致 力 于 通过 计算 机 技术 来 提高 用 户 的 应 用 能 力 ， 他 们 所 强调 的 方式 是 “增强 ”用 户 
的 能 力 ， 而 非 完 全 的 “自动 化 ”>。NLS 中 包含 一 系列 非常 重要 的 概念 ， 如 针对 思路 大 纲 的 
编辑 器 、 超 文本 链接 、 远 程 会 议 、 字 处 理 、 电 子 邮 件 、 鼠 标定 位 设备 、 窗 口 化 软件 和 帮助 
系统 等 [3]。 

e 1969 年 ”Brown 大 学 的 Nelson 和 van Dam 实现 了 一 个 名 为 FRESS 的 早期 超 文本 编辑 器 [4]。 
今天 布朗 大 学 IRIS (Information and Scholarship) 研究 院 的 Intermedia 项 目 正 是 由 这 个 系统 
发 展 而 成 的 。 

。1976 年 MIT 的 Architecture Machine 研究 组 提出 了 名 为 “多 类 媒体 ”的 项 目 。 这 导致 1978 
年 第 一 张 超 媒体 视频 磁盘 一 -4spen Movie Map 的 诞生 。 

。 1985 年 ”Negroponte 和 Wiesner 共同 创建 了 MIT 媒体 实验 室 ， 该 实验 室 成 为 在 数字 视频 
和 多 媒体 领域 具有 主导 地 位 的 研究 机 构 。 

。1989 Tim Berners-Lee 向 欧洲 核 技术 研究 理事 会 CERN) 提出 了 World Wide Web 的 

。1990 Kristina Hooper Woolsey 开始 领导 Apple 的 多 媒体 实验 室 。 该 实验 室 拥 有 100 多 
位 员工 ， 并 以 教育 方面 的 应 用 为 主要 研究 目标 。 
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e 1991 年 ” MPEG-1 成 为 数字 视频 的 国际 标准 ， 之 后 在 此 基础 上 开发 了 一 系列 更 新 的 标准 ， 
如 MPEG-2、MPEG-4 等 。 

。1991 Ẹ PDA 的 诞生 开启 了 计算 机 应 用 的 一 个 新 的 时 代 ， 对 多 媒体 而 言 更 是 如 此 。 随 着 

1996 年 无 键盘 PDA 的 市 场 化 ， 这 一 发 展 趋势 得 到 了 进一步 延续 。 

1992 年 ”JPEG 成 为 数字 图 像 压 缩 的 国际 标准 。 它 的 进一步 发 展 导致 了 JPEG 2000 标准 的 

诞生 。 

1992 年 ”产生 第 一 个 网 络 上 的 MBone 音频 多 播 。 

1993 fF Illinois 大 学 的 Supercomputing Applications 国家 中 心 开发 了 NCSA Mosaic， 这 是 

第 一 个 比较 成 熟 的 浏览 器 ， 从 而 开创 了 Internet 信息 访问 的 新 时 代 。 

1994 年 Jim Clark 和 Marc Andreessen 开发 了 Netscape 浏览 器 。 

1995 年 Java 语言 诞生 。Java 语言 可 以 用 来 开发 与 平台 无 关 的 应 用 程序 。 

1996 年 ”DVD 技术 的 产生 使 得 一 整 部 高 清晰 度 的 电影 可 以 被 收录 在 一 张 磁盘 上 。 人 们 预 

言 DVD 格式 将 改变 整个 音乐 、 游 戏 和 计算 机 行业 。 

1998 年 W3C 发布 7 了 XML 1.0。 

1998 年 具有 32MB 闪存 的 手持 MP3 设备 成 为 市 场 上 深 受 消费 者 青睐 的 产品 。 

2000 #F World Wide Web (WWW) 预计 已 有 10 亿 张 网 页 的 规模 。 


1.2.2 ” 超 媒体 和 多 媒体 


Ted Nelson 在 1965 年 提出 了 “ 超 文本 ”这 个 术语 。 我 们 通常 把 一 本 书 看 做 是 线性 媒体 ， 要 从 
头 到 尾 顺 序 阅读 ， 而 浏览 超 文本 系统 就 是 非 线性 的 ， 可 以 利用 指向 文档 中 其 他 部 分 或 是 其 他 文档 
的 链接 来 进行 。 图 1-1 说 明了 这 种 关系 。 

超 媒 体 ( hypermedia ) 并 不 一 定 是 基于 文本 的 ， 它 同样 可 以 包含 其 他 媒体 ， 如 图 形 、 图 像 ， 
特别 是 具有 连续 性 的 媒体 ， 如 声音 和 视频 。 很 明显 ，Ted Nelson 也 是 第 一 个 使 用 这 个 术语 的 人 。 
World Wide Web (WWW) 是 超 媒体 应 用 的 一 个 最 好 的 例子 。 超 文本 

正如 我 们 所 看 到 的 那样 ， 多 媒体 (multimedia) 意味 着 除 
了 应 用 传统 媒体 〈 如 文本 和 图 形 ) 之 外 ， 计 算 机 信息 还 可 以 通 
过 音频 、 图 形 、 图 像 、 视 频 和 动画 等 多 种 形式 来 表达 。 可 以 将 
超 媒体 看 做 是 多 媒体 应 用 的 一 个 特例 。 

典型 的 多 媒体 应 用 包括 数字 视频 的 编辑 和 制作 系统 、 电 子 
报纸 和 杂志 、WWW、 游 戏 、 在线 参考 咨询 工作 (如 百科 全 书 )、 
游戏 、 群 件 、 家 庭 购物 、 交 互 电 视 、 多 媒体 课件 、 视 频 会 议 、 © “热点 ” 
视频 点 播 和 交互 电影 等 。 非 线性 
1.3 World Wide Web 1-1 “ 非 线性 的 超 文 本 

World Wide Web (万 维 网， 简称 WWW) 是 目前 规模 最 大 也 是 最 常用 的 超 媒 体 应 用 。WWW 
之 所 以 如 此 流行 ,是 因为 用 户 可 以 迅速 地 从 Web 服务 器 获取 海量 的 信息 ,方便 地 发 布 信 息 ， 并 快 
捷 有 效 地 在 Web 浏览 器 上 访问 这 些 信 息 。WWW 技术 是 由 World Wide Web Consortium (W3C, 
万 维 网 协会 ) 来 负责 维护 和 开发 的 ， 而 Internet Engineering Task Force (IETF) 则 负责 对 该 技术 进 
行 标准 化 。W3C 列 出 了 WWW 的 三 个 目标 : 对 网 络 资源 的 普遍 访问 (任何 人 在 任何 地 点 都 可 以 
访问 )， 对 信息 的 有 效 浏览 和 对 已 发 布 内 容 的 可 靠 使 用 。 

1.3.1 WWW 的 历史 


令 人 惊讶 的 是 ， 目 前 最 为 流行 的 网 络 多 媒体 应 用 竞 然 可 以 追根 溯源 到 核 物理 ! 正如 在 前 面 章 
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Wide Web 技术 作为 一 种 组 织 和 共享 其 工作 与 实验 结果 的 方式 。 下 面 简要 回顾 一 下 Www 创建 的 


节 中 所 提 到 的 那样 , Tim Berners-Lee 向 CERN (European Center for Nuclear Research ) 提 出 将 World 
? 
8 | 历程 : 


20 世纪 60 年 代 ”人 们 认识 到 文档 的 格式 需要 具有 良好 的 可 读 性 ， 并 能 对 结构 和 元 素 进行 
区 分 。Charles Goldfarb. Edward Mosher 和 Raymond Lorie 为 IBM 开发 了 通用 标记 语言 
(Generalized Markup Language, GML). 

1986 年 ”ISO 发 布 了 标准 通用 标记 语言 (SGML ) 的 最 终 版 本 , 它 主 要 是 基于 更 早 的 GML. 
1990 年 ”在 CERN 的 支持 下 , Tim Berners-Lee 开始 在 NeXTStep 工作 站 上 开发 超 文本 服 
务 器 、 浏 览 器 和 编辑 器 。 为 此 ， 他 发 明了 超 文本 标记 语言 (HyperText Markup Language, 
HTML) 和 超 文本 传输 协议 (HyperText Transfer Protocol, HTTP). 

1993 NCSA 发 布 其 X Windows 系统 上 基于 Marc Andreessen 的 Mosaic 的 ao 版 。 这 是 第 一 
个 流行 的 浏览 器 ， 微 软 的 Internet Explorer 就 是 基于 Mosaic 的 。 

e 1994 Æ Marc Andreessen 和 他 在 NCSA 的 一 些 同事 与 Dr James H. Clark 〈 他 也 是 Silicon 
Graphics Inc. 的 创建 者 ) 共同 组 建 了 Mosaic 通信 公司 。11 月 ， 公 司 更 名 为 Netscape 通信 
公司 。 

1998 Œ W3C 接受 XML 1.0 规范 作为 其 发 布 的 推荐 标准 。XML 从 此 取代 HTML 成 为 
W3C 关注 的 主要 焦点 。 


1.3.2 HTTP 


HTTP 最 初 是 为 了 传输 超 媒 体 而 设计 的 ， 但 它 也 可 以 用 来 传输 其 他 类 型 的 文件 。HTTP 是 一 
种 “无 状态 ”的 请 求 /响应 协议 ， 也 就 是 说 ， 客 户 端 在 建立 和 HTTP 服务 器 的 连接 后 ， 发 送 请 求 信 
息 ， 并 在 服务 器 响应 后 中 断 连 接 ， 本 次 连接 和 下 一 次 请 求 之 间 没 有 任何 关系 ， 一 次 请 求 过 程 对 应 
一 个 HTTP 连接 。 

基本 的 请 求 格式 如 下 所 示 : 


Method URI Version 
Addit ional-Headers 


Message-body 


统一 资源 标识 符 〈URI) 指出 被 访问 的 资源 ， 例 如 以 “http://” 开 头 的 主机 名 。URI 也 可 
以 是 同一 资源 定位 符 〈URL)。 这 里 ，URI 还 可 以 包括 查询 字符 串 〈 用 于 需要 提交 数据 的 某 些 交 
互动 作 )。Method 是 在 URI 上 交换 信息 和 执行 操作 的 方式 ， 主 要 应 用 GET 和 post 两 种 方法 。 
GET 表明 请 求 的 信息 包含 在 请 求 字符 串 内 , 而 Post 则 表明 URI 所 指向 的 资源 需要 去 考虑 消息 体 
中 的 信息 。POST 通常 用 于 提交 HTML 表单 。Additional-Headers 指定 客户 端的 附加 参数 。 
例如 ， 当 请 求 访问 本 书 的 网 站 时 ， 可 能 会 产生 下 面 的 HTTP WA: 
Co] GET http://www.cs.sfu.ca/mmbook/ HTTP/1.1 


基本 的 响应 格式 为 


Version Status-Code Status~Phrase 
Additional-~Headers 


Message-body 
Status-Code 表示 响应 类 型 (或 错误 类 型 ) 的 编号 , 而 status-Phrase 则 是 相应 的 文本 描述 。 


当 请 求 被 成 功 处 理 时 , 这 两 者 分 别 是 200 和 OK; 当 URI 不 存在 时 , 则 分 别 为 404 和 Not Found. 
以 上 是 两 种 最 为 常见 的 Status-Code 和 Status-Phrase。 例如， 在 响应 对 本 书 网 站 的 访问 请 
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RIN, Web 服务 器 可 能 会 返回 以 下 信息 : 
HTTP/1.1 200 OK Server: 
(No-plugs-here-please] Date: Wed, 25 July 2002 
20:04:30 GMT 
Content-Length: 1045 Content-Type: text/html 


<HTML> 
</HTML> 
1.3.3 HTML 


HTML 是 用 来 在 World Wide Web 上 发 布 超 媒 体 信 息 的 语言 。 它 的 定义 使 用 了 SGML 规范 ， 
并 派生 出 了 一 组 用 来 描述 通用 文档 结构 和 格式 的 元 素 。 由 于 HTML 使 用 ASCH, 因此 它 可 以 移 
植 到 任何 〈 甚 至 是 非 二 进 制 兼容 的 ) 计算 机 硬件 上 , 这 一 特性 使 得 全 球 信息 交换 成 为 可 能 。HTML 
目前 的 版 本 为 1999 年 制定 的 4.01 版 本 .下 一 代 HTML 语言 将 是 XHTML, 它 是 将 HTML 和 XML 
相 结 合 的 产物 。 

HTML 使 用 标记 来 描述 文档 元 素 。 标 记 使 用 类 似 于 <token params> 的 格式 来 定义 文档 元 
素 的 起 始点 ， 用 类 似 于 </token> 的 格式 来 定义 元 素 的 结束 点 。 某 些 元 素 只 有 内 联 参数 ， 所 以 不 
需要 结束 标记 。HTML 将 文档 分 为 HEAD 和 BODY 两 个 部 分 ， 形 式 如 下 : 


<HTML> 
<HEAD> 


</HEAD> 

<BODY> 

</BODY> 

</HTML> 
HEAD 部 分 描述 文档 的 定义 ， 这 个 部 分 将 在 文档 显示 前 被 解析 。 这 个 部 分 包括 页 面 标题 、 资 源 链 
接 以 及 作者 定义 的 元 信息 。BODY 部 分 描述 文档 的 结构 和 内 容 。 常 用 的 结构 元 素 包括 段落 、 表 、 


表单 、 链 接 、 链 表 和 按钮 等 。 
下 面 是 一 个 HTML 页 面 的 简单 例子 ， 
<HTML> 
<HEAD> 


<TITLE> 
A sample web page. 
</TITLE> 
<META NAME = "Author" CONTENT = "Cranky Professor"> 
</HEAD> <BODY> 
<P> . 
We can put any text we like here, since this is 
a paragraph element. 
</P> 
</BODY> 
</HTML> 


HTML 还 有 其 他 更 为 复杂 的 结构 并 可 以 和 其 他 标准 混合 使 用 。HTML 规范 经 过 不 断 发 展 ， 现 
在 已 经 支持 和 脚本 语言 的 集成 ， 在 客户 端 对 元 素 和 属性 进行 动态 操纵 〈 动 态 HTML), URE 
名 为 级 联 样式 表 (Cascading Style Sheet, CSS) 的 标记 语言 来 对 显示 参数 进行 模块 化 的 定制 。 当然， 
HTML 具有 严格 的 、 非 描述 性 的 结构 元 素 ， 也 很 难 达 到 模块 化 。 


1.3.4 XML 
对 于 WWW 的 标记 语言 而 言 ， 数据、 结构 和 视图 的 模块 化 特性 是 很 有 必要 的 。 我 们 希望 用 户 
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或 应 用 能 够 自己 定义 文档 中 的 标记 《结构 ) 以 及 它们 之 间 的 关系 ， 并 在 XML 文件 中 使 用 这 些 标 
记 来 定义 数据 ， 最 后 在 另 一 个 文档 中 定义 如 何 显示 这 些 标记 。 

假设 你 希望 根据 用 户 的 查询 请 求 从 数据 库 中 检索 股票 信息 。 使 用 XML 语言 ， 你 需要 事先 为 
股票 数据 创建 全 局 文档 类 型 定义 (DTD)。 这 样 ， 服 务 器 端的 脚本 程序 就 可 以 根据 DTD 定义 的 规 
则 ， 利 用 数据 库 中 的 数据 来 生成 满足 查询 条 件 的 XML 文档 。 最 后 ， 根 据 显 示 设 备 的 不 同 ， 用 户 
将 会 收 到 XML 样式 表 ， 以 便 在 不 同 显示 设备 〈 例 如 CRT 显示 器 或 是 手机 屏幕 ) 上 都 能 得 到 最 佳 
的 视觉 效果 。 

XML 目前 的 版 本 是 1998 年 2 月 通过 的 1.0 版 本 。XML 的 语法 和 HTML 相似， 但 XML 更 为 
严格 。 所 有 的 标记 都 必须 小 写 ， 如 果 一 个 标记 只 有 内 联 数据 ， 那 么 它 也 必须 包含 结束 符 ， 例 如 
<token params />。XML 还 使 用 名 称 空间 ， 以 便 区 分 不 同 DTD 中 具有 相同 名 字 的 标记 。 我 们 也 
可 以 通过 URI 来 导入 DID。 下 面 是 一 个 XHTML 文档 的 定义 ， 我 们 可 以 看 一 下 XML 的 文档 结构 : 


<?xml version="1.0" encoding="iso-8859-1"?> 
<!DOCTYPE html PUBLIC "~//W3C//DTD XHTML 1.0" 
“http: //www.w3.org/TR/xhtml1/DTD/xhtmll-transition.dtd"> 
<html xmlns="http: //www.w3.org/1999/xhtm1"> 
. [html that follows 
the above mentioned 
XML rules} 
</html> 


所 有 的 XML 文档 都 以 <?xml version="ver"?> 开 头 。<!1DOCTYPE..> 是 用 来 导入 DTD 
的 特殊 标记 。 由 于 它 实 际 上 是 DTD 的 定义 ， 因 此 并 不 遵循 XML 规则 。xmlns 为 文档 元 素 定义 
了 唯一 的 名 称 空间 。 在 上 面 的 例子 中 ， 名 称 空间 是 XHTML 规范 的 说 明 网 页 。 
以 下 是 其 他 一 些 和 XML 相关 的 规范 : 
。 XML 协议 ”用 来 在 进程 间 交 换 XML 信息 。 它 被 用 来 替代 HTTP 协议， 并 将 进一步 扩展 以 
支持 网 络 上 的 进程 间 通 信 。 
e XML Schema 一 种 结构 化 和 功能 更 加 强大 的 语言 ， 用 来 定义 XML 数据 类 型 (标记 )。 和 
DTD 不 同 ，XML Schema 用 XML 标记 来 进行 类 型 定义 。 
。XSL 基本 来 说 , 这 是 XML 的 CSS. 另 一 方面 , XSL 更 为 复杂 , 它 由 三 个 部 分 构成 : XSLT 
(XSL Transformations). XPath (XML Path Language) 和 XSL 格式 对 象 。 
。SMIL 同步 多 媒体 集成 语言 ， 读 作 “smile”。 它 是 XML 应 用 (使 用 预定 义 的 DTD) 的 一 
个 特例 ， 允 许 我 们 采用 脚本 的 形式 来 定义 任意 媒体 类 型 和 用 户 输入 之 间 的 交互 。 例 如 ， 它 
可 以 用 来 实现 流 媒体 和 幻灯 片 之 间 的 同步 显示 ， 用 户 对 这 两 者 的 随机 浏览 都 将 得 到 响应 。 


1.3.5 SMIL 


正如 我 们 需要 HTML 作为 发 布 文本 -文档 的 可 读 标记 语言 那样 ， 我 们 也 需要 一 种 发 布 多 媒体 
表现 的 标记 语言 。 多 媒体 表现 具有 一 些 独 有 的 特点 ， 在 文本 文档 中 ， 所 有 的 文本 信息 是 顺序 阅读 
的 ， 并 且 同时 显示 出 来 ， 而 多 媒体 表现 则 具有 很 多 内 容 随时 间 变 化 的 元 素 ， 如 视频 和 音频 等 。 所 
以 , 多 媒体 标记 语言 必须 支持 对 不 同 多 媒体 元 素 的 调度 和 同步 , 并 定义 这 些 元 素 和 用 户 之 间 的 交互 。 

W3C 在 1997 年 成 立 了 一 个 工作 组 进行 多 媒体 同步 语言 规范 的 制定 。 该 工作 组 在 1998 年 6 
月 制定 了 后 来 成 为 W3C 推荐 标准 的 SMIL 1.0 规范 。 随 着 HTML 在 XML 中 重新 定义 (XHTML 
规范 )，SMIL 1.0 也 进行 了 修订 ， 在 功能 上 有 所 增强 。SMIL 2.0 规范 集成 了 HTML, €F 2001 
年 8 月 被 W3C 接受 为 推荐 标准 。 

和 XHTML 类 似 ，SMIL 2.0 在 XML 中 也 是 使 用 模块 化 的 方法 定义 的 。 所 有 的 SMIL 元 素 都 
可 以 被 妇 入 到 不 同 的 模块 中 一 一 模块 是 功能 类 似 的 元 素 、 属 性 和 值 的 集合 。 在 模块 化 领域 ， 应 用 
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程序 无 需 包含 所 有 可 用 的 模块 。 因 此 便 有 了 语言 规范 (profile) 的 概念 ， 它 定义 了 一 组 遵循 一 定 
集成 规则 的 特定 模块 。SMIL 2.0 有 一 个 包括 几乎 所 有 SMIL 模块 的 核心 语言 规范 ， 一 个 只 包含 支 
持 基 本 功能 所 需 模块 的 基本 规范 ， 以 及 用 来 集成 SMIL 和 HTML 的 XHTML+SMIL 规范 。 后 者 包 
括 了 大 部 分 的 XHTML 模块 和 SMIL 的 定时 模块 (这 里 没有 包括 结构 模块 ， 因 为 XHTML 有 自己 的 
结构 模块 )。 

SMIL 的 语言 结构 和 XHTML 类 似 。 根 元 素 为 smi1， 它 包含 两 个 元 素 head 和 body。head 
包含 除 同 步 之 外 的 信息 一 一 元 信息 、 布 局 信息 和 内 容 控制 〈 例 如 媒体 的 码 率 )。 body 则 包含 和 显 
示 哪 些 资源 以 及 何 时 显示 这 些 资源 相关 的 信息 。 

SMIL 中 有 三 类 资源 同步 的 方法 ， seq，par M excl. seq 规定 相关 的 元 素 必须 按照 事先 定 
义 的 顺序 进行 播放 (顺序 )。 相 应 的 ，par 规定 相关 元 素 同 时 被 播放 〈 并行)。exc1l 表示 同一 时 
刻 只 能 有 一 个 元 素 被 播放 《〈 互 斥 )， 但 是 事先 并 不 规定 播放 顺序 。 

THE SML 代码 的 一 个 例子 : 


<!DOCTYPE smil PUBLIC "-//W3C//DTD SMIL 2.0" 
"http: //www.w3.org/2001/SMIL20/SMIL20.dtd*> 
<smil xmlns= 
“http: //www.w3.org/2001/SMIL20/Language"> 
<head> 
<meta name="Author" content="Some Professor" /> 
</head> 
<body> 
<par id="MakingOfABook"> 
<seq> 
<video src="authorview.mpg" /> 
<img src="onagoodday.jpg" /> 
</seq> 


<audio src="authorview.wav" /> 
<text srce="http://www.cs.sfu.ca/mmbook/" /> 
</par> 
</body> 
</smil> 


SMIL 文档 可 以 选择 是 否 使 用 < ! DOCTYPE...> 来 指示 导入 SMIL DTD. MREAT DID, Æ 
么 编译 器 就 会 根据 DTD 来 对 文档 进行 验证 SML 文档 以 <smi1> 开 头 并 用 xmlns 属性 来 指定 默 
认 的 名 称 空间 。<head> 部 分 指定 文档 的 作者 ， 而 <body> 部 分 包含 同步 信息 和 需要 显示 的 资源 。 

在 上 面 的 例子 中 ， 名 为 “authorview .mpg” 的 视频 资源 ， 名 为 “authorview.wav” 的 
音频 资源 和 位 于 “http://booksite.html” 的 HTML 文档 将 在 开始 时 同时 播放 。 当 视频 结束 
时 ， 则 显示 图 片 “onagoodday . jpg” 此 时 音频 和 HTML 文档 则 仍 在 播放 中 。 此 时 ， 在 音频 文 
件 中 作者 将 表示 对 观众 的 感谢 并 结束 这 次 访谈 。 

关于 SMIL 的 其 他 信息 以 及 可 用 的 模块 可 以 在 W3C 的 网 站 上 获取 。 


1.4 多 媒体 软件 工具 概述 


在 本 节 中 , 我 们 将 简单 介绍 用 于 多 媒体 处 理 的 软件 工具 。 了 解 这 些 软 件 工具 仅仅 是 一 个 开始 ， 
完成 一 个 功能 全 面 的 多 媒体 项 目 不 但 需要 非常 出 色 的 编程 技巧 ， 还 要 使 用 已 有 工具 发 挥 网 络 和 计 
算 机 的 强大 功能 ?。 

下 面 是 我 们 将 要 介绍 的 几 类 软件 。 


O 可 以 从 相关 的 网 站 上 了 解 软件 工具 的 用 途 。 在 常见 的 多 媒体 课程 中 ， 第 一 项 作业 往往 就 是 使 用 本 节 介绍 的 工具 制作 一 
个 简单 的 多 媒体 产品 。 有 些 工 具 功能 强大 ， 可 以 用 来 作为 课程 设计 的 一 部 分 。 
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。 音 序 和 记 谱 9 

。 数 字音 频 

。 图 形 和 图 像 编辑 

。 视 频 编辑 

。 动画 

。 多 媒体 编著 
1.4.1 Sanh Asie dh 


e Cakewalk Cakewalk Æ Pro Audio 曾经 使 用 的 名 称 。 开 发 这 款 音 序 和 编辑 软件 的 公司 是 
Twelve Tone Systems， 该 公司 也 在 Internet 上 以 较 低 的 价格 出 售 软件 的 简略 版 本 “Cakewalk 
Express”. 

。 术 语音 序 器 (sequencer) 来 源 于 在 MIDI 音乐 语言 (MIDI 中 的 事件 ， 参 见 6.2 节 ) 中 存储 
音符 序列 的 老式 设备 。 我 们 也 可 以 向 乐曲 中 插入 WAV 文件 和 Windows MCI 命令 (用 于 动 
画 和 视频 )。 这 里 所 说 的 MCI 是 Windows API 中 一 个 常见 的 组 件 。 

。 Cubase Cubase 是 另 一 款 音 序 / 编 辑 程序 ， 具 有 和 Cakewalk 类 似 的 功能 。 它 包括 了 一 些 
数字 音频 的 编辑 工具 〈 见 下 面 的 介绍 )。 

。Macromedia Soundedit Soundedit 是 一 款 用 来 为 多 媒体 项 目 和 网 页 制作 音频 的 软件 。 它 
已 经 开发 得 相当 成 熟 ， 并 能 和 其 他 的 Macromedia 产品 集成 使 用 ， 如 Flash, Director 等 。 


14.2 HFE 


数字 音频 工具 主要 用 来 访问 和 编辑 构成 音频 的 真实 采样 的 声音 。 

。Cool Edit Cool Edit 是 一 款 非常 流行 的 功能 强大 的 数字 音频 工具 集 ， 具 有 可 以 和 专业 音频 
工作 室 相 媲美 的 处 理 能 力 〈 对 于 PC 用 户 而 言 )， 包 括 多 声 道 的 生成 、 声 音 文件 编辑 和 数字 
信和 号 处 理 。 

。 Sound Forge Sound Forge 是 一 款 基于 PC 的 高 级 程序 , 用 来 编辑 WAV 文件 。 它 可 以 通过 
声卡 从 光驱 、 磁 带 或 是 麦克 风采 和 集 声音 ， 以 供 进一步 混 音 和 编辑 。 它 还 支持 添加 特殊 音效 。 

e Pro Tools Pro Tools 是 一 款 运行 在 Macintosh 或 Windows 平台 上 的 高 端 集成 音频 产品 和 编 
辑 环境 。Pro Tools 提供 了 便捷 的 MIDI 制作 和 操作 功能 ， 以 及 强大 的 音频 混合 、 录 制 和 编 
辑 软件 。 

1.4.3 图形 和 图 像 编 辑 

。 Adobe Illustrator Illustrator 是 一 款 功能 强大 的 用 于 制作 和 编辑 向 量 图 的 发 布 工具 , 可 方便 
地 导出 向 量 图 以 便 在 Web 上 使 用 。 

e Adobe Photoshop Photoshop 是 图 形 图 像 处 理 和 制作 的 标准 工具 。 图 形 、 图像 和 文本 可 以 

分 在 不 同 层次 进行 独立 的 操作 ， 非 常 灵活 。 此 外 ， 它 的 “ 滤 镜 工厂 ”(filter factory) 可 以 
实现 非常 复杂 的 光学 效果 。 

Macromedia Fireworks Fireworks 是 专门 用 来 制作 网 页 图 形 的 软件 。 它 包括 位 图 编辑 器 、 
向 量 图 编辑 器 以 及 用 于 按钮 和 翻转 的 JavaScript 生成 器 。 

Macromedia Freehand Freehand 是 一 个 文本 和 网 页 图 形 编辑 工具 , 它 支持 多 种 位 图 格式 ， 
如 GIF、PNG 和 JPEG。 这 些 都 是 基于 像素 的 格式 ， 这 种 格式 指定 了 每 个 像素 。 它 同样 支 


O 音 序 软件 主要 用 于 音乐 制作 ， 能 录 下 合成 器 所 发 出 的 MIDI 信息 ， 可 用 来 编 曲 、 进 行 音乐 创作 ， 记 谱 软件 一 般 只 具有 很 
少 的 音 序 功能 ， 而 主要 用 于 记录 乐谱 ， 用 来 出 版 音乐 书籍 或 乐谱 。 
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持 基 于 向 量 的 格式 , 这 种 格式 只 需 指定 线段 的 两 个 端点 , 而 不 必 指 定 每 个 像素 , 例如 .SWF 
(Macromedia Flash) 和 FHC (Shockwave Freehand)。 它 还 可 以 读 入 Photoshop 的 格式 。 


1.4.4 ”视频 编辑 
e Adobe Premiere Premiere 是 一 款 简 单 直观 的 非 线性 视频 编辑 工具 一 一 可 以 将 视频 片段 以 
任意 次 序 放 置 。 视 频 和 音频 排列 在 不 同 的 轨道 上 ， 就 好 像 乐 谱 那 样 。 它 提供 了 大 量 的 音频 
和 视频 轨道 、 登 加 和 虚拟 片段 。 对 于 片段 ， 它 有 一 个 包含 内 置 的 转换 、 过 滤器 和 运动 的 库 ， 
以 便 高 效 开 发 多 媒体 产品 。 
e Adobe After Effects After Effects 是 一 款 功能 强大 的 视频 编辑 工具 ， 支 持 用 户 给 已 有 的 视 
频 文 件 添加 特殊 效果 或 对 已 有 视频 文件 进行 修改 , 如 光照 ,阴影 和 运动 模糊 等 .和 Photoshop 
类 似 ， 它 也 是 用 图 层 来 进行 对 象 的 独立 编辑 。 
。Final Cut Pro Final Cut Pro 是 Apple 为 Macintosh 平台 提供 的 视频 编辑 工具 。 它 可 以 从 大 
BRET EBA DV) 采集 音频 和 视频 数据 。 它 提供 了 一 套 非常 完整 的 环境 ， 从 视 
频 的 采集 到 编辑 、 色 彩 修正 ， 以 及 最 终 将 结果 输出 到 视频 文件 或 是 在 网 络 上 广播 。 
145 ”动画 
1， 多 媒体 API 
Java 3D 是 Java 用 来 构建 和 显示 3D 图 形 的 API， 和 Java Media Framework 处 理 媒 体 文件 的 
方式 类 似 。 它 提供 了 一 套 基 本 的 对 象 原 语 AAA, HRS) 来 让 开发 人 员 进 行 场景 的 构建 。 
由 于 它 是 在 建立 在 OpenGL 或 DirectX (用 户 可 以 从 中 选择 ) 之 上 的 抽象 层 ， 因 此 可 以 支持 图 形 
加 速 。 
DirectX 是 一 个 支持 视频 、 图 像 、 音 频 和 3D 动画 的 Windows API, 是 目前 Windows 多 媒体 应 
用 程序 (如 计算 机 游戏 ) 开发 中 应 用 最 广泛 的 APL 
OpenGL 诞生 于 1992 年 ， 是 目前 最 为 流行 的 3D API. OpenGL 具有 高 度 的 可 移植 性 ， 可 以 
运行 在 目前 所 有 流行 的 操作 系统 上 ， 如 UNIX、Linux、Windows 和 Macintosh。 
2. EFLA 
3D Studio Max 包括 一 组 高 端的 专业 工具 ， 用 于 完成 人 物 动画 、 游 戏 开 发 和 视觉 效果 的 制作 。 
使 用 这 一 工具 建立 的 模型 在 很 多 游戏 中 得 到 应 用 ， 如 Sony Playstation。 
Softimage XSI (HKA Softimage 3D〉 是 一 款 功 能 强大 的 建 模 、 动 画 和 显示 软件 包 ， 用 于 
在 游戏 和 电影 中 制作 动画 和 生成 特殊 效果 。 
Maya 是 Softimage 的 竞争 对 手 , 它 包括 了 一 个 完整 的 建 模 软 件 包 , 拥有 多 种 不 同 的 建 模 和 动 
画工 具 ， 例 如 构造 逼真 的 衣物 和 皮毛 的 工具 。 
RenderMan 是 Pixar 开发 的 显示 工具 包 , 在 构建 复杂 的 图 形 外 观 和 图 像 方面 有 着 出 色 的 性 能 ， 
并 在 很 多 电影 中 得 到 应 用 ， 如 Monsters Inc. 和 Final Fantasy: The Spirits Within 等 。 它 还 可 以 从 
Maya 中 导入 模型 。 
GIF Animation Package 为 了 能 在 Web 应 用 中 对 小 型 动画 进行 简单 有 效 的 开发 , 很 多 共享 软 
件 和 其 他 程序 都 支持 GIF 动画 图 像 的 制作 。GIF 包含 了 多 幅 图 像 ， 并 通过 它们 之 间 的 循环 构成 简 
单 的 动画 。Gifcon 和 GifBuilder 就 是 两 个 这 样 的 程序 。Linux 也 提供 了 一 些 简单 的 动画 工具 ， 如 


animate» 
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1.4.6 多 媒体 编著 


能 够 提供 包括 交互 式 用 户 控 制 在 内 的 一 整套 完整 的 多 媒体 表现 能 力 的 工具 ， 称 为 编著 

(authoring) 程序 。 

。Macromedia Flash Flash 通过 一 种 类 似 于 乐谱 的 方法 来 支持 交互 式 电影 的 创作 ， 因 为 并 

行 的 事件 序列 排列 在 时 间 线 上 ， 就 好 像 乐谱 中 的 音符 一 样 。 电 影 中 的 元 素 在 Flash PRA 

符号 (symbol)。 符 号 被 添加 到 称 为 库 的 中 心 存储 库 中 ， 并 可 以 加 入 到 电影 的 时 间 线 上 。 在 

某 一 时 刻 显示 这 些 符 号 时 ， 它 们 就 出 现在 几 台 (Stage) bo 舞台 给 出 了 电影 在 某 一 时 刻 的 内 

容 ， 并 可 以 通过 Flash 内 办 的 工具 进行 操作 和 移动 。Flash 电影 通常 用 来 在 Web 上 显示 电影 

或 游戏 。 

Macromedia Director Director 用 一 种 类 似 于 电影 的 方法 进行 交互 式 表现 的 创作 。 这 个 功 

能 强大 的 程序 包括 一 种 内 置 脚本 语言 Lingo， 可 以 进行 复杂 交互 电影 的 制作 9 . Director 中 

的 角色 包括 位 图 分 镜 、 脚 本 、 音 乐 、 声 音 和 调 色 板 。Director 可 以 读 入 多 种 不 同 的 位 图 格 

式 。 程 序 对 交互 性 有 着 良好 的 支持 ，Lingo 〈 具 有 自己 的 调试 器 ) 则 人 允许 更 多 的 控制 行为 ， 

包括 对 外 部 设备 的 控制 ， 如 对 VCR 和 视频 唱片 播放 器 。Director 还 有 网 页 编著 的 能 力 ， 可 

以 进行 Web 上 Shockwave 电影 的 制作 。 

e Authorware Authorware 是 一 个 成 熟 的 并 得 到 广泛 支持 的 编著 工具 ， 由 于 它 采 用 基于 流程 
图 ( 即 所 谓 的 图 标 / 流 控制 模式 ) 的 思想 ,因此 对 计算 机 学 生来 说 易于 学 习 。 它 可 以 为 文本 、 
数字 电影 、 图 形 和 声音 添加 超 链 接 。 它 还 提供 用 PC. Mac 不 同 版 本 创建 的 文件 之 间 的 兼容 
性 。Shockwave Authorware 应 用 可 以 整合 Shockwave 文件 ， 包 括 Director 电影 、Flash 动画 
和 音频 。 

。 Quest Quest 和 Authorware 在 很 多 方面 都 具有 相似 性 ， 它 使 用 类 似 于 流程 图 的 方法 。 但 
是 ， 流 程 图 中 的 节点 可 以 用 更 为 抽象 的 方式 〈 称 为 帧 )》 来 封装 信息 。 因 此 ， 图 标 之 间 的 连 
接 更 为 概念 化 ， 并 不 总 是 表示 程序 中 控制 的 流向 。 


15 进一步 探索 


Steinmetz 和 Nahrstedt[5] 中 的 第 1 章 和 第 2 章 对 多 媒体 的 概念 的 总 体 介绍 很 有 参考 价值 。 

本 书 的 配套 网 站 与 相关 领域 的 最 新 发 展 保持 着 很 好 的 同步 。 网 站 中 Further Exploration 目录 下 
的 第 1 章 提 供 了 不 少 关 于 多 媒体 历史 的 链接 。 作 为 开头 ， 网 站 提供 了 Vannevar Bush 关于 Memex 
系统 概念 的 文章 。 这 些 文章 在 过 去 和 现在 都 被 认为 极 具 启 发 性 。 尽 管 写 于 50 年 前 ， 但 它 还 是 预 

言 到 了 很 多 当前 的 发 展 ， 包 括 传真 机 和 关联 记忆 模型 。Nielsen 的 书 [6] 则 从 总 体 上 介绍 了 超 文本 
和 超 媒体 。 如 果 希 望 了 解 更 新 的 信息 ，Jefftay 和 Zhang[1] 的 研究 论文 提供 了 更 为 深入 的 背景 介绍 
和 未 来 研究 的 指导 。 

网 站 中 其 他 链接 的 包括 了 以 下 方面 的 信息 : 

。 Ted Nelson 和 Xanadu 项 目 。 

。 Nicholas Negroponte 在 MIT Media Lab 的 工作 成 果 。Negroponte 关于 多 媒体 的 著作 [7] 是 一 

个 经 常 被 引用 的 经 典 作品 。 
e Douglas Engelbart 和 “On-Line System” 的 历史 。 
e MIT Media Lab. Negroponte 和 Wiesner 共同 创建 了 MIT Media Lab， 它 仍 在 不 断 壮大 中 ， 


O 所 以 ,对 于 多 媒体 的 课程 设计 而 言 ，Direetor 是 一 个 不 错 的 选择 ， 因 为 它 具 有 强大 的 开发 能 力 ， 而 且 无 需 使 用 令 人 头疼 
的 C++。 
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并 被 认为 是 世界 上 最 有 影响 力 的 学 术 理 念 的 发 源 地 。 

。 客 户 端 执行 。Java 和 客户 端 执行 的 提出 始 于 1995 年 ,“Duke”( 第 一 个 Java applet) 同样 可 
以 在 该 书 的 网 站 上 找到 链接 。 

Buford 的 书 [8] 的 第 12 章 对 编著 进行 了 详细 介绍 .Neuschotz 的 文章 [9] 给 出 了 创建 简单 的 基于 

Lingo 的 交互 式 Director 电影 的 步骤 。 

其 他 的 链接 包括 : 

。 数字 音频 。 这 个 网 页 包括 了 指向 Sonic Foundry 公司 的 链接 ， 从 中 可 以 找到 Sound Forge 的 
信息 ， 一 个 Sound Forge 的 范例 程序 ， 以 及 生成 的 WAV 文件 。 这 个 范例 采用 一 种 比较 复杂 
的 方式 来 混合 左右 声 道 的 信息 。 这 个 工具 可 以 非常 便捷 地 创建 复杂 的 特殊 效果 。Digidesign 
是 一 家 提供 高 端 Macintosh 软件 的 公司 ， 还 销售 具有 专门 处 理 功 能 的 电路 板 。 

。 音 序 和 记 谱 。 

。 图形 和 图 像 的 编辑 信息 。 

。 视频 编辑 产品 和 信息 。 

。 动 画 网 址 。 

。 多 媒体 编著 工具 。 

。 XML. 


1.6 练习 


1. 说 出 三 种 较 有 新 意 的 Internet 应 用 或 多 媒体 应 用 。 说 出 你 认为 它们 有 新 意 的 理由 。 

2. 用 自己 的 话 简单 解释 Memex 以 及 它 在 超 文本 方面 的 作用 。 我 们 今天 还 能 继续 Memex 应 用 
吗 ? 在 你 自己 的 工作 中 ， 你 如 何在 实际 工作 中 应 用 Memex 的 理念 ? 

3. 假设 你 需要 在 Internet 上 传输 气味 。 现 在 我 们 在 某 处 有 一 个 气味 传感器 ， 并 且 希 望 将 芳香 向 量 
〈 以 此 为 例 ) 传输 到 一 个 接收 器 以 复制 相同 的 气味 。 试 设计 一 个 这 样 的 系统 。 列 出 需要 考虑 的 
三 个 主要 问题 和 这 类 传输 系统 的 两 个 应 用 。 提 示 : 考虑 医学 应 用 。 

4， 人 物 或 物体 的 跟踪 可 以 通过 视觉 或 声音 手段 来 完成 。 视 觉 系 统 的 准确 度 较 高 ， 但 是 代价 相对 
较为 昂贵 ， 而 使 用 一 组 麦克 风 就 可 以 在 付出 较 少 的 费用 的 情况 下 对 人 的 方位 进行 精确 度 要 求 
不 高 的 定位 。 因 此 ， 视 觉 和 声音 方法 的 融合 是 很 有 意义 的 。 上 网 查找 是 否 有 人 应 用 这 一 理念 
开发 用 于 视频 会 议 系 统 的 工具 。 

5. 非 眼 片 通 真 度 的 图 形 表 示 那 些 并 非 用 来 构建 照片 图 像 的 计算 机 图 形 。 一 个 例子 是 会 议 系统 (让 
我 们 再 一 次 关注 这 个 最 前 沿 的 应 用 )。 例 如 ， 如 果 我 们 跟踪 嘴唇 的 运动 ， 我 们 可 以 生成 和 我 们 
脸 部 相应 的 动画 。 如 果 我 们 不 希望 使 用 自己 的 脸 部 , 我 们 可 以 用 其 他 的 脸 部 来 代替 一 一 脸 部 特 
征 模型 可 以 将 正确 的 嘴唇 动作 匹配 到 另外 一 个 模型 上 。 试 查找 谁 在 进行 avatar 生成 的 研究 
(avatar 是 会 议 参与 者 身体 动作 的 模拟 表示 )。 

6 水印 是 在 数据 中 嵌入 隐藏 信息 的 技术 。 它 具有 法 律 的 内 涵 ， 这 幅 图 像 是 否 被 抄袭 ? 这 幅 图 像 
ESTER? 这 是 由 谁 、 在 哪里 完成 的 ? 考虑 这 类 被 秘密 嵌入 在 图 像 中 、 并 且 能 够 被 辨识 的 
信息 ， 并 回答 上 面 这 些 问 题 《 类 似 的 问题 来 自 移 动 电话 的 使 用 ， 我 们 可 以 用 什么 来 确定 是 谁 、 
在 哪儿 、 在 什么 时 候 用 这 个 手机 ? )。 
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第 2 章 多 媒体 编 车 和 工具 


2.1 多 媒体 编著 


多 媒体 编著 就 是 多 媒体 作品 (有 时 又 被 称 为 “电影 ”或 “展现 ”) 的 制作 。 由 于 我 们 要 从 计 
算 机 科学 的 角度 来 探讨 这 个 问题 ， 因 此 我 们 更 关心 交互 式 的 应 用 程序 。 而 且 ， 我 们 需要 考虑 静态 
图 像 编辑 器 (如 Adobe Photoshop〉 以 及 简单 的 视频 编辑 器 (如 Premiere)， 因 为 这 类 应 用 程序 帮 
助 我 们 建立 交互 式 的 多 媒体 项 目 。 

交互 的 程度 取决 于 应 用 本 身 ， 其 范围 从 没有 任何 交互 《如 幻灯 片 的 演示 〉 到 完全 沉浸 式 的 虚 
拟 现实 。 

在 幻灯 片 的 演示 中 ， 交 互 主要 包括 对 演示 速度 的 控制 (如 单 击 以 转 至 下 一 页 )。 下 一 个 层次 
的 交互 是 对 播放 顺序 的 控制 和 下 一 页 的 选择 。 再 下 一 个 层次 是 对 媒体 的 控制 ， 视 频 的 开始 /结束 、 
文本 搜索 、 视 图 的 滚动 和 缩放 。 如 果 我 们 可 以 实现 对 变量 〈 例 如 对 数据 库 的 查询 请 求 ) 的 控制 ， 
那么 可 以 实现 更 多 的 控制 。 

如 果 我 们 可 以 对 对 象 进行 控制 ， 例 如 在 屏幕 上 移动 对 象 和 进行 交互 式 的 游戏 等 等 ， 那 么 控制 
的 水 平 就 可 以 得 到 本 质 的 提高 。 最 后 ， 我 们 可 以 对 一 个 完整 的 仿真 过 程 进行 控制 ， 我 们 在 场景 中 
移动 视角 ， 控 制 场景 对 象 。 

很 长 一 段 时 间 以 来 ， 人 们 都 在 考虑 多 媒体 项 目 中 应 该 包含 什么 内 容 ， 相 关 的 参考 将 在 本 章 最 
后 给 出 。 

在 本 节 中 ， 我 们 将 介绍 如 下 内 容 : 

。 多 媒体 编著 的 模式 

。 多 媒体 作品 

。 多 媒体 展现 

。 自动 编著 

介绍 自动 编著 主要 是 为 了 处 理 常见 的 编著 问题 以 及 利用 自动 工具 (例如 和 人工 智 能 技术 的 使 
用 ) 支持 编著 工作 。 首 先 ， 我 们 考虑 为 遗留 文档 执行 自动 链接 的 程序 。 

在 对 多 媒体 的 范例 进行 介绍 后 ， 我 们 将 介绍 一 些 实用 的 多 媒体 内 容 生 成 工具 一 一 构成 一 个 完 
整 的 多 媒体 作品 库 的 软件 工具 。 这 里 我 们 将 详细 介绍 目前 得 到 广泛 应 用 的 一 些 标 准 程序 。 
2.1.1 多 媒体 编著 的 模式 

编著 是 创建 多 媒体 应 用 的 过 程 。 大 多 数 编著 程序 都 使 用 某 种 常见 的 编著 模式 ， 这 些 编著 模式 
有 时 也 称 为 编著 范例 ， 编 著 范 例 将 简化 对 创建 多 媒体 应 用 所 使 用 方法 的 理解 。 

常见 的 编著 模式 如 下 所 示 : 

。 脚本 语言 模式 

这 种 模式 的 思想 是 使 用 一 种 专门 的 语言 来 实现 交互 〈 按 钮 、 鼠 标 等 》 并 支持 条 件 、 跳 转 、 

循环 、 函 数 / 宏 等 。 一 个 例子 是 Asymetrix Learning Systems 的 Toolbook 程序 中 的 OpenScript 

语言 。OpenScript 类 似 于 标准 的 面向 对 象 和 事件 驱动 的 程序 设计 语言 。 下 面 的 例子 显示 了 

一 个 Toolbook 小 程序 。 由 于 必须 对 对 象 库 进行 学 习 ， 因 此 这 样 的 语言 都 有 一 条 学 习 曲 线 ， 

当然 , 所 有 的 编著 工具 都 是 如 此 , 即使 那些 使 用 标准 C 语言 作为 脚本 语言 的 工具 也 是 如 此 。 
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-- load an MPEG file 

extFileName of MediaPlayer "“theMpegPath" = 
"c:\windows\media\home33 .mpg" ; 

== play 

extPlayCount of MediaPlayer "theMpegPath" = 1; 

-- put the MediaPlayer in frames mode (not time mode) 

extDisplayMode of MediaPlayer "theMpegPath" = 1; 

-- if want to start and end at specific frames: 

extSelectionStart of MediaPlayer "theMpegPath" = 103; 

extSelectionEnd of MediaPlayer “theMpegPath" = 1997; 

-- start playback 

get extPlay() of MediaPlayer "theMpegPath"; 


幻灯 片 显 示 模 式 

默认 的 幻灯 片 显示 是 一 种 线性 显示 过 程 。 尽 管 有 执行 页 面 间 跳 转 的 工具 ， 但 却 很 少 有 人 使 
用 这 一 功能 。PowerPoint 和 ImageQ 就 是 这 样 的 范例 。 

层次 模式 

这 里 ， 用 户 可 控 的 元 素 以 树 状 结构 组 织 在 一 起 。 这 种 模式 通常 用 在 菜单 驱动 的 程序 中 。 

图 标 / 流 程控 制 模式 

工具 箱 中 包含 有 图 形 化 的 图 标 ， 而 编著 过 程 可 以 通过 创建 带 有 图 标的 流程 图 来 实现 。 这 类 
模式 的 一 个 标准 例子 是 Macromedia 的 Authorware。 图 2-1 显示 了 一 个 流程 图 。 我们 可 以 使 
用 Map〈 即 一 个 子 例 程 ) 图 标 来 对 元 素 分 组 ， 也 可 使 用 简单 的 流程 图 元 素 ， 如 IF 语句 、 
CASE 语句 等 来 对 元 素 分 组 。 这 样 ， 我 们 可 以 很 方便 地 实现 简单 的 动画 。 

框架 模式 

和 图 标 /流程 控制 模式 相似 ， 工 具 箱 中 包含 有 图 形 化 的 图 标 ， 而 编著 过 程 可 以 通过 创建 带 有 
图 标的 流程 图 来 实现 。 然 而 在 这 里 ， 图 标 间 的 链接 更 为 概念 化 ， 而 不 代表 程序 的 真正 流向 。 
所 以 , 图 标 设 计 的 “框架 ” 比 简单 的 图 标 /流程 控制 模式 更 为 抽象 。 这 类 模式 的 一 个 例子 是 Allen 
Communication 的 Quest。 流 程 图 中 包含 了 由 “框架 ”构成 的 “模块 >。 框 架 则 由 对 象 构成 ， 
例如 文本 、 图 形 、 音 频 、 动 画 和 视频 ， 这 些 对 象 都 可 以 响应 事件 。 此 外 ， 这 里 使 用 的 脚本 
语言 是 我 们 常用 的 C 语言 。 图 2-2 显示 了 一 个 Quest 框架 。 

卡片 /脚本 模式 

这 种 模式 使 用 简单 的 索引 -卡片 结构 来 开发 多 媒体 作品 。 由 于 我 们 可 以 使 用 链接 ， 因 此 这 是 
一 条 开发 使 用 超 文本 或 超 媒 体 应 用 的 捷径 。Apple 的 HyperCard 是 最 早 使 用 这 类 模式 的 ， 田 
一 个 例子 是 Knowledge Adventure 的 HyperStudio。 后 者 目前 在 很 多 学 校 里 得 到 应 用 。 图 2-3 
显示 了 HyperStudio 栈 中 的 两 张 卡片 。 











图 2-1 Authorware 流程 图 图 2-2 Quest 框架 
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图 2-3 HyperStudio 栈 中 的 两 张 卡片 


。 角色 /乐谱 /脚本 模式 

在 这 种 模式 中 ， 横 轴 是 时 间 轴 ， 用 电子 表格 的 形式 水 平 显示 ， 纵 轴 又 叫 轨 道 ， 用 以 显示 多 
媒体 作品 中 实例 化 的 不 同 角 色 。 由 于 这 些 轨道 控制 同步 行为 ， 因 此 这 种 模式 和 乐谱 非常 相 
似 。 多 媒体 元 素 类 似 于 角色 的 “演员 表 ”， 而 “脚本 ” 则 是 基本 的 事件 过 程 或 由 定时 器 事件 
引发 的 过 程 。 通 常 ， 你 可 以 编写 自己 的 脚本 。 所 以 ， 这 和 传统 的 “脚本 语言 ”的 概念 非常 
相似 ， 传 统 的 脚本 语言 非常 简洁 ， 抽 和 象 程度 较 低 ， 因 为 这 只 是 某 种 专门 用 途 的 脚本 。 
Macromedia 的 Director 是 这 种 模式 的 重要 例子 。Director 使 用 Lingo 脚本 语言 ， 它 是 一 种 
面向 对 象 并 且 由 事件 驱动 的 语言 。 


2.1.2 多 媒体 作品 


多 媒体 项 目 往往 需要 一 组 具有 专业 技能 的 人 员 参 与 。 在 本 书 中 ， 我 们 更 加 专注 技术 层面 ， 但 
是 多 媒体 作品 的 制作 通常 不 仅 需要 程序 员 ， 还 需要 艺术 导演 、 图 形 设计 师 、 艺 术 指导 、 制 片 人 、 
项 目 经 理 、 编 剧 、 用 户 界面 设计 师 、 音 效 师 、 摄 影 师 以 及 3D 与 2D 动画 制作 人 员 的 共同 参与 。 

在 完成 作品 的 40% 前 ， 此 时 主要 的 工作 一 般 只 涉及 程序 员 ， 当 完成 65%~70% 时 ， 应 该 能 够 
有 作品 的 alpha 版 本 (早期 版 本 ， 不 包括 所 有 计划 内 的 功能 和 特征 )。 一 般 来 说 ， 设 计 过 程 由 情节 
串联 、 构 造 流程 图 、 设 计 原 型 系统 、 进 行 用 户 测试 以 及 并 行 的 媒体 宣传 等 阶段 构成 。 编 程 和 调试 
阶段 将 与 市 场 营销 互相 协调 进行 ， 然 后 便 是 产品 的 分 销 阶 段 。 

情节 串联 板 〈 又 称 故事 板 ) 通过 一 系列 的 草图 描述 了 多 媒体 概念 的 基本 设想 。 这 和 视频 中 的 
关键 帧 类 似 ， 故 事 将 围绕 这 些 “ 停 止 点 ”展开 。 流 程 图 通过 插入 导航 信息 〈 多 媒体 概念 的 结构 和 
用 户 交互 ) 来 对 故事 板 进行 组 织 。 安 排 导 航 信息 最 为 可 靠 的 方法 是 选用 传统 的 数据 结构 。 层 次 化 
的 系统 是 一 种 最 为 简单 的 组 织 策略 。 

多 媒体 不 同 于 其 他 展现 ， 必 须 十 分 仔细 地 考虑 如 何在 新 产品 中 组 织 不 同 “ 房 间 ” 之 间 的 运动 。 
例如 ， 我 们 正在 导航 一 次 非洲 之 旅 ， 但 我 们 还 需要 带 些 样品 回 到 博物 馆 以 便 仔 细 观 察 ， 那 么 我 们 
如 何 才能 有 效 地 从 一 个 场景 转 到 另 一 个 场景 ? 流程 图 有 助 于 设计 出 解决 方案 。 

流程 图 阶段 之 后 是 详细 功能 规范 的 开发 。 这 是 指 对 展现 中 每 个 场景 进行 逐 帧 的 走 查 ， 包 括 所 
有 的 屏幕 动作 和 用 户 交互 。 例 如 ， 当 鼠标 掠 过 某 个 角色 时 ， 它 会 做 出 反应 ， 或 是 当 用 户 单 击 鼠 标 
时 ， 角 色 会 做 出 某 种 动作 。 

构建 原型 和 测试 是 设计 阶段 的 最 后 一 个 组 成 部 分 。 一 些 多 媒体 设计 者 在 这 个 阶段 已 经 开始 使 
用 编著 工具 ， 尽 管 这 个 中 间 的 原型 并 不 会 用 到 最 终 的 作品 中 或 在 另 一 个 工具 中 使 用 。 用 户 测试 是 
最 终 的 开发 阶段 前 的 一 个 极为 重要 的 步骤 。 
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2.1.3 多 媒体 展现 


在 本 节 中 ， 我 们 将 简要 介绍 影响 多 媒体 内 容 展现 效果 的 一 些 重 要 因素 以 及 内 容 设 计 的 指导 
方针 。 

1， 图 形 风格 

我 们 需要 仔细 考虑 展现 中 的 配色 方案 和 文字 的 视觉 效果 。 很 多 的 展现 都 是 针对 商用 显示 器 ， 
而 非 屏 幕 。 此 外 ， 还 需要 考虑 人 类 视觉 的 动态 性 以 决定 展现 的 尺寸 。 这 里 的 大 多 数 观 点 都 参考 自 
A Vetter 等 人 的 著作 [2]， 如 图 2-4 Pras. 

2， 色 彩 的 原则 和 方针 

某 些 配色 方案 和 艺术 风格 与 某 种 主题 、 风 格 的 匹配 效果 最 好 。 例 如 ， 对 于 室外 场景 ， 配 色 方 
案 可 以 较为 自然 和 鲜艳 ; 对 于 室内 场景 则 应 该 朴素 一 些 。 可 以 采用 的 艺术 风格 包括 油画 、 水 彩 画 、 
彩色 铅笔 画 或 是 粉笔 画 。 

通常 建议 不 要 用 太 多 的 颜色 ， 因 为 会 使 人 分 心 ， 这 与 用 色 一 致 一 一 颜色 可 以 用 来 表示 主题 的 
改变 。 

3， 字 体 

为 了 提高 视觉 的 效果 ， 大 字体 (18~36 磅 ) 是 最 佳 的 选择 ， 每 屏 的 行 数 不 应 多 于 6~8 行 。 如 
图 2-4 所 示 , sans serif 字体 比 serif 字体 具有 更 好 的 效果 (serif 字体 的 高 度 较 低 , 并 带 有 一 定 的 倾斜 )。 
图 2-4 显示 了 两 幅 屏 幕 投 影 的 比较 〈 图 2-2 和 图 2-3 来 自 于 Vetter, Ward 和 Shapiro 的 著作 [2])。 
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A 15 second clip of music from a compact disc was digitized at 
three different sampling rates (11 kHz, 22 kHz, and 44 Hz) with 
8-bit precision. The effects of the different sampling rates are 
clearly audible. This is a demonstration of the Nyquist 
Theorem 


A 15 second clip of music from a compact disc was digitized 
at three different sampling rates (11 kHz, 22 kHz, and 44 kHz) 
with 8-bit precision. The effects of the different sampling rates 
are clearly audible. This is a demonstration of the Nyquist 
Theorem. 












Press Button to Play || Nyquist Theorem: 

8-bit Audio Clip 
The minimum sampling 

| frequency of an A/D converter 

| should be at least twice the 
frequency of the signal being 

| measured 


Music 11 kHz | amy 





Male 22 khz | 


上 面 的 图 中 颜色 和 字体 使 用 得 比较 合理 。 它 具有 统一 的 配色 方案 ; 并 使 用 了 较 大 的 sans-serif 
(Arial) 字体 。 底 下 的 图 则 效果 不 佳 ， 因 为 它 使 用 了 太 多 的 颜色 ， 而 且 这 些 颜 色 并 不 和 谐 。 红 色 
和 蓝 色 在 一 起 让 人 很 难 聚 焦 ， 因 为 人 的 视网膜 很 难 同 时 聚焦 于 这 两 种 颜色 上 。 深 色 的 Serif(Times 
New Roman) 字 体 很 难 辨 别 。 此 外 ， 右 下 角 面 板 的 对 比 度 不 足 ， 因 为 漂亮 的 柔和 的 颜色 只 有 当 其 背 
景色 有 着 显著 不 同时 才能 使 用 。 

4. 色彩 对 比 程序 

根据 Vetter 等 人 的 研究 成 果 ， 我 们 开发 了 一 个 VB 程序 来 调查 文本 的 颜色 和 背景 颜色 是 如 何 
影响 文本 的 可 读 性 的 〈 这 个 程序 可 以 在 本 书 的 相应 网 站 上 获得 ， 具 体 信息 请 参看 本 章 结尾 的 进 一 
步 探索 一 节 。 在 网 站 上 给 出 了 可 执行 文件 和 源 文件 )。 

在 屏幕 上 构建 理想 的 配色 方案 最 简单 的 方法 是 使 用 互补 色 原 理 来 找到 文字 的 背景 颜色 。 对 于 
在 0~1 E (或 者 0~255) 取 值 的 颜色 来 说 ， 如 果 文 本 的 颜色 是 三 元 组 (R, G, B) ,那么 比较 合理 
的 背景 颜色 可 以 由 最 大 值 减 去 这 个 颜色 得 到 : 


P2 Ë ZSHKBFHLA 19 





(R, G, B)=(1-R, 1-G, 1-B) 62.1) 
这 里 ， 不 仅 颜 色 在 某 种 程度 上 是 “相反 的 ”( 当 然 这 和 艺术 家 们 所 指 的 “相反 ”是 不 同 的 )， 而 且 
如 果 背 景 的 颜色 较 深 ， 那 么 文本 的 颜色 较 浅 ， 反 之 亦 然 。 


在 这 个 VB 程序 中 ， 用 户 可 以 通过 滑 轨 来 控制 背景 颜色 的 变化 ， 同 时 文本 的 颜色 也 将 根据 互 
补 色 原理 作 相应 的 改变 。 用 户 也 可 以 通过 单 击 背 景 打 开 色彩 选择 器 来 选择 色彩 。 
如 果 你 认为 可 以 有 更 好 的 色彩 搭配 ， 那 么 单 击 文字 打开 和 背景 色 无 关 的 色彩 选择 器 来 挑选 颜 
fo (文字 本 身 也 可 以 被 编辑 。 ) 略 加 试验 你 就 可 以 发 现 ， 某 些 颜 色 的 搭配 确实 有 更 好 的 效果 一 一 
例如 粉红 色 背 景 和 森林 绿 的 前 景 ， 或 是 绿色 背景 和 淡 紫 色 前 景 。 图 2-5 是 这 个 程序 运行 时 的 截图 。 
图 2-6 是 一 个 调 色 板 〈color wheel)， 这 里 相对 颜色 的 定义 为 (1_-R，1-G，1-B)。 艺 术 家 的 
调 色 板 和 这 个 调 色 板 有 所 不 同 ， 因 为 艺术 家 的 调 色 板 更 多 地 源 于 艺术 感觉 ， 而 非 某 种 算法 。 在 传 
统 的 艺术 家 的 调 色 板 中 ， 黄 色 和 品 红色 相对 ， 而 非 图 2-6 中 的 蓝 色 ， 蓝 色 是 和 橙色 相对 的 。 


Use the sliders to change the window color 
or click on the window to use a color picker 


The text will change to the window's complementary color 
f Click on the text to manually change it 

Use the sliders to change the window color 
ot click on the window to use a color picker 





图 2-5 考察 颜色 和 文本 可 读 性 的 程序 图 2-6 调 色 板 ( 彩 色 插 页 中 也 有 此 图 ) 
5， 分 镜 动 画 
分 镜 经 常 在 动画 中 使 用 。 例如 ， 在 Macromedia 的 Director 中 ， 分 镜 的 概念 是 指 任 何 资源 的 实 
例 化 。 然 而 ， 分 镜 动 画 的 基本 思想 是 非常 简单 的 。 假 设 我 们 已 经 创造 了 一 个 动画 图 ， 如 图 2-7a 


所 示 ， 那 么 可 以 很 容易 地 得 到 一 位 ( 黑 - 白 ) 的 掩 模 M， 如 图 2-7b 所 示 ， 并 得 到 图 2-7c 所 示 的 分 
镜 So 











a) 原 图 b) 掩 模 图 M c) FAS 
图 2-7 分 镜 的 生成 (“Duke” 图 来 自 Sun Microsystem， 在 此 感谢 !) 
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现在 我 们 可 以 将 这 个 分 镜 覆 盖 在 彩色 的 背景 B 上 ， 如 图 2-8a 所 示 。 我 们 需要 做 的 是 先 将 B 
和 M 作 “ 与 ”运算 ， 然 后 将 得 到 的 结果 和 8 作 “或 ”运算 ， 最 终 的 结果 如 图 2-8e 所 示 。 将 这 些 
简单 操作 的 组 合 以 一 定 的 速率 执行 ， 就 可 以 生成 一 个 简单 的 二 维 动画 。 这 个 动画 可 以 移动 分 镜 ， 

但 并 不 改变 它 的 外 观 。 





d) 4% S e) BANDMORS 
图 2-8 “分 镜 动 画 


6， 视 频 的 切换 

视频 的 切换 可 以 有 效 地 表示 切换 到 下 一 部 分 内 容 。 视 频 切 换 可 以 作为 指示 “场景 切换 ”的 语 
法 方法 ， 并 经 常 带 有 语义 信息 。 常 用 的 切换 类 型 包括 : 剪 切 、 擦 找 、 融 化 、 淡 入 和 淡出 。 

前 切 ， 顾 名 思 义 ， 是 在 两 个 连续 的 视频 帧 之 间 执行 对 图 像 内 容 的 剧烈 变化 。 这 是 最 为 简单 也 
最 为 常用 的 切换 方式 。 

擦拭 是 用 另 一 段 视 频 中 的 内 容 来 代替 可 视 区 域 的 像素 。 如 果 两 个 视频 的 边界 在 屏幕 中 缓慢 移 
动 ， 那 么 第 二 有 段 视频 将 逐渐 替代 第 一 段 视频 。 擦 拭 方式 有 从 左 到 右 、 从 右 到 左 、 垂 直 、 水 平 ， 类 

[28] 似 于 膜 孔 方 式 ， 或 是 类 似 于 钟表 指针 掠 过 的 方式 ， 等 等 。 

融化 的 方式 用 两 段 视频 的 混合 来 代替 原 图 中 的 像素 ， 以 实现 两 段 视 频 之 间 的 渐变 。 淡 出 使 用 

CA) 色 来 代替 视频 ， 淡 入 则 相反 。 大 多 数 的 融化 可 以 对 应 于 Adobe Premiere 视频 编辑 软件 中 


的 交叉 融化 和 抖动 融化 归 为 两 类 。 
在 第 一 类 (交叉 融化 ) 中 ， 像 素 点 是 渐变 的 。 它 可 以 被 定义 为 
D = (1-a(t)) - A+ a(t) - B (2.2) 
A 和 B 是 表示 视频 A 和 B 的 三 元 颜色 向 量 。aw (D) 是 颜色 切换 的 函数 ， 通 常 它 和 时 间 上 具有 线 
性 关系 : 
odt)=kt, ktmax =1 (2.3) 


第 二 类 AR) WZATA. WERA, BBA 中 的 像素 点 将 突然 被 视频 B 所 替代 ， 这 
种 变化 是 非 连续 的 。 变 化 的 像素 点 的 位 置 可 以 是 随机 的 ， 也 可 以 遵循 一 定 的 模式 。 
很 明显 ， 淡 入 淡出 是 第 一 类 融化 方式 (视频 A 或 B 为 黑色 (或 白色 )) 的 特例 ， 而 擦拭 则 是 
[29 ] 第 二 类 融化 方式 〈 采 用 某 种 几何 模式 来 改变 像素 ) 的 特例 。 
尽管 很 多 数字 视频 编辑 器 都 有 一 组 预制 的 切换 方式 ， 我 们 有 时 还 是 希望 能 够 按照 自己 的 意图 
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定制 。 假 设 我 们 希望 创建 一 种 特殊 的 擦拭 模式 使 用 滑 入 滑 出 的 方式 实现 视频 的 替换 。 通 常 的 擦拭 
方式 没有 这 种 效果 。 通 常情 况 下 ， 每 段 视 频 处 于 一 定 的 位 置 ， 切 换 线 沿 着 “静态 ”的 视频 运动 ， 
视 区 左边 的 部 分 显示 左边 视频 的 像素 点 ， 右 边 部 分 显示 右边 视频 的 像素 点 〈 对 于 从 左 到 右 的 水 平 
擦拭 而 言 )。 

假设 我 们 不 希望 视频 固定 在 某 个 位 置 ， 而 是 渐渐 地 移入 〈 移 出 ) 视 区 : 我 们 希望 Video, MA 
边 滑 入 ， 并 将 Video HEH. K 2-9 显示 了 这 个 过 程 。Videor 和 Videor 有 各 自 不 同 的 RGB 值 。 注 
意 ，R 是 帧 中 位 置 (x，y) 以 及 时 间 + 的 函数 。 由 于 这 是 视频 而 非 不 同 大 小 的 图 像 集 合 ， 因 此 两 
段 视 频 有 相同 的 最 大 范围 Xma o (Premiere 将 所 有 视频 都 规范 为 相同 大 小 ， 即 当前 选中 的 区 域 ， 所 
以 无 需 担 心 大 小 不 同 。) 








a) m b) Videog c) eA erpe: Videog 
图 2-9 Video? A, Videor 推出 的 过 程 

切换 边界 的 水 平 位 置 好 沿 着 视 区 从 t=0 时 刻 的 xr=0 向 t= tmar ZIR xr = Xma EB. PALA, 
对 于 线形 的 切换 来 说 ，xr = ttma) Xma o 

所 以 对 于 任意 时 刻 情况 如 图 2-10a 所 示 。 视 区 有 它 自 己 的 坐标 系统 ，x 轴 的 范围 是 从 0 到 
Xmax 。 我 们 将 在 视 区 内 填 入 像素 。 对 于 每 一 个 x (和 y)， 我 们 必须 确定 从 哪 段 视频 中 获得 RGB 
值 以 及 从 什么 位 置 获 得 像素 值 一 一 也 就 是 左边 视频 坐标 系统 中 的 x 位置。 根据 视频 的 特点 ， 左 边 
视频 的 图 像 是 不 断 变化 的 。 





a) Video, 的 几何 信息 ， 它 正在 推动 Videor b) 计算 Video, 中 的 位 置 以 复制 到 视 区 中 
图 2-10 图 2-9 所 示 过 程 的 分 析 


假设 对 y 的 依赖 性 是 隐 式 的 。 在 任何 事件 中 ， 我 们 使 用 和 源 视 频 相 同 的 y 值 。 那 么 对 于 红色 
信道 (对 于 蓝 色 和 绿色 的 信道 也 相似 )，R = R(x,t)。 假 设 我 们 确定 像素 值 来 自 于 Videos WAE 
运动 视频 中 的 x 坐标 xL=x+(xmar -xr)， 其 中 x 是 我 们 需要 在 视 区 中 填充 的 位 置 ，xzr 是 切换 边界 
的 位 置 ， xmur 是 任意 一 帧 中 的 最 大 像素 位 置 。 

为 了 说 明 这 一 点 , 我们 可 以 从 图 2-10b 中 看 到 , 可 以 使 用 距离 x 与 zax — xr 的 和 来 计算 视频 区 
坐标 系统 中 的 位 置 xz o 
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将 xr =C tmax ) Xmax 带 入 ,我们 可 以 得 到 如 图 2-11 所 示 的 伪 代 码 。 在 图 2-11 中 ， 如 果 像 素 点 来 
自 Videor 而 非 Videor， 那 么 也 是 很 容易 得 到 公式 中 
相应 的 变化 。 

7. 一些 技术 设计 问题 

影响 多 媒体 应 用 的 设计 和 传输 的 技术 参数 包括 
计算 机 平台 、 视 频 格式 和 分 辨 率 、 存 储 和 磁盘 空间 
以 及 传输 方法 等 。 7 we 

。 计 算 机 平台 ”通常 ， 我 们 使 用 的 计算 机 可 以 mi HISAR OE 
是 基于 UNIX (Hin Sun) 的 计算 机 、PC 或 者 是 Macintosh。 尽 管 不 少 软件 表面 上 是 “可 
移植 ”的 ， 但 很 多 跨 平台 软件 是 依赖 于 运行 时 模块 的 ， 这 些 运 时 行 模块 在 不 同系 统 上 运行 
时 可 能 会 有 问题 。 
视频 格式 和 分 辩 率 ”最 为 流行 的 视频 格式 为 NTSC、PAL 和 SECAM。 它 们 互相 之 间 并 不 
兼容 ， 所 以 使 用 不 同 格式 播放 视频 时 需要 进行 转换 。- 

在 屏 医 上 显示 像素 点 的 图 形 卡 有 时 也 被 称 为 “显卡 ”事实 上 ， 某 些 卡 可 以 实现 帧 的 
抓 取 功 能 ， 将 模拟 信号 转化 为 用 于 视频 的 数字 信号 。 这 类 卡 又 被 称 为 “视频 采集 卡 ”。 

图 形 卡 的 性 能 和 它 的 价格 有 关 。 图 形 卡 性 能 的 一 个 较 老 的 标准 是 S-VGA， 它 支持 
1 280x1 024 AUR, WR 16 位 的 65 536 种 颜色 或 24 位 的 16.7M 种 颜色 。 目 前 ， 支 持 
1 600x1200 分 辨 率 以 及 32 位 彩色 的 图 形 卡 是 非常 常见 的 。 
内 存 和 磁盘 空间 需求 ”硬件 的 飞速 发 展 缓和 了 这 个 问题 ， 但 总 体 来 说 多 媒体 软件 的 需求 还 
是 很 高 的 。 目 前 对 于 多 媒体 程序 而 言 ， 至 少 需要 128MB 的 RAM 和 20G 的 硬盘 空间 。 
传输 方式 ”在 编码 及 其 他 工作 都 已 完成 后 ， 我 们 需要 考虑 如 何 显示 我 们 的 成 果 。 由 于 我 们 
已 经 有 了 足够 大 的 磁盘 ， 其 性 能 良好 ， 存 储 空间 也 不 是 什么 问题 ， 我 们 可 以 直接 带 着 计算 
机 进行 展现 。 然 而 ， 我 们 通常 希望 将 成 果 作 为 产品 进行 销售 。 目 前 ， 可 重 写 的 DVD 驱动 
并 不 普及 ， 而 CD-ROM 可 能 缺乏 足够 的 容量 来 存储 多 媒体 的 展现 文件 。 此 外 ，CD-ROM 
光驱 的 访问 速度 也 不 如 硬盘 。 

电子 传输 手段 是 另 一 种 方式 ， 这 取决 于 用 户 端 《和 服务 器 端 ) 的 网 络 带 宽 。 根 据 展现 
类 型 ， 我 们 可 以 选择 是 否 使 用 流 媒体 技术 。 

对 于 大 型 多 媒体 项 目 ， 目 前 还 没有 非常 适用 的 传输 机 制 。 尽 管 如 此 ， 使 用 PowerPoint 
或 者 Director 这 样 的 工具 可 以 制作 适合 CD-ROM 存储 的 多 媒体 展现 文件 。 


2.1.4 自动 编著 


目前 ， 我 们 只 考虑 了 如 何 编著 新 的 多 媒体 。 但 事实 上 存在 着 很 多 已 有 的 多 媒体 文档 ， 因 此 研 
究 人 员 对 自动 编著 〈automatic authoring) 的 方法 一 直 有 着 很 浓厚 的 兴趣 。 这 个 术语 可 以 用 于 表示 
开发 多 媒体 展现 的 高 级 帮助 工具 ， 也 可 以 表示 利用 已 有 的 资源 开发 多 媒体 文档 的 自动 创建 机 制 。 

1， 超 媒体 文档 

首先 我 们 考虑 超 媒体 文档 。 通 常 ， 产 生 文 档 需要 三 个 步骤 ， 信 息 的 生成 和 捕捉 、 编 著 以 及 发 
布 〈 这 三 个 步骤 可 以 看 成 是 非 线 性 的 )。 但 问题 是 ， 在 这 个 过 程 中 多 少 内 容 可 以 自动 完成 ? 

第 一 个 步骤 是 媒体 的 捕捉 ， 如 果 是 来 自 文本 或 是 音频 数字 器 或 是 视频 帧 抓 取 器 ， 那 么 就 可 以 
很 方便 地 实现 自动 化 。 最 后 一 步 〈 多 媒体 的 展现 ) 则 是 我 们 考虑 的 多 媒体 工具 的 目标 。 中 间 的 步 
R (MF) 则 是 我 们 考虑 的 重点 。 

从 本 质 上 说 ， 我 们 希望 将 信息 结构 化 以 支持 对 可 用 媒体 的 访问 和 操纵 。 显 然 ， 我 们 可 以 考虑 
在 这 里 使 用 标准 的 计算 机 数据 结构 一 一 链表 、 树 或 网 络 (图 )。 不 过 ， 这 里 我 们 将 考虑 如 何 更 好 地 






for t in 0..tnax 
for x in 0.. Xmax 







R= Re (x — Xmax * 于 一， t) 
MUX 
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实现 数据 的 结构 化 以 支持 多 视图 而 非 单 一 的 静态 视图 。 

2 外表 化 和 线性 化 

图 2-12 显示 了 缺乏 超 媒 体 支 持 的 通信 方式 的 本 质问 题 作者 的 思维 被 线性 化 了 。 相 反 ， 超 链 
接 则 可 以 让 我 们 部 分 地 模仿 作者 的 思维 过 程 〈 即 外 表 化 )。 毕 竟 ，1.2.1 节 中 Bush 的 Memex 思想 
的 本 质 涉 及 人 类 记忆 的 相关 链接 。 


作者 读者 
\ ‘an 
NS Pa =|) 
线性 化 逆 线 竹 化 w 4) 
oro FO FO 
oso 
a) 
作者 o 读者 
iE 
A =! 
外 表 化 综合 化 to A) 
X Z 


图 2-12 ”使 用 超 链接 的 通信 (感谢 David Lowe (©1995 IEEE)[5]) 


以 Microsoft Word 为 例 ， 现 在 我 们 可 以 很 方便 地 创建 一 份 文档 的 超 文 本 版 本 ， 因 为 Word 本 
身 就 有 章 和 标题 这 样 的 结构 。 但 如 果 我 们 提取 语义 内 容 以 及 发 现 链接 和 定位 点 ， 那 么 就 会 产生 问 
题 ， 即 使 只 考虑 文本 不 考虑 图 像 。 图 2-13 显示 了 这 个 问题 : 尽管 管理 一 些 信息 节点 是 可 行 的 , 但 
当 问 题 的 规模 变 得 很 大 时 ， 我 们 就 需要 自动 助手 的 帮助 。 





索引 索引 
we 概念 1 
概念 2 概念 2 
概念 3 
概念 3 =a 
概念 4 概念 4 =I 
信息 空间 
a) 复杂 性 : 可 管理 的 b) 复杂 性 : 大 规模 的 信息 


图 2-13 复杂 信息 空间 (感谢 David Lowe ( ©1995 IEEE)[5]) 
当 数 据 集 的 规模 变 大 时 ， 我 们 就 要 应 用 数据 库 的 方法 。 此 时 需要 关注 的 问题 有 扩展 性 (扩展 
为 大 数据 集 )、 可 维护 性 、 资 料 的 添加 和 可 重用 性 。 数 据 库 的 信息 必须 按 以 下 方法 设置 “发 布 ” 
阶段 (向 用 户 展现 ) 可 以 采用 及 时 方式 , 并 能 通过 在 中 间 信 息 结 构 中 定义 的 用 户 视图 来 表达 信息 。 
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3， 超 文本 的 半自动 迁移 

文本 信息 的 超 链接 结构 非常 简单 :“ 节 点 ”表示 语义 信息 并 且 是 指向 其 他 页 面 的 定位 点 。 
图 2-14 显示 这 些 概念 。 
节点 节点 





Textual data has been widely used to construct and A node is simply a grouping of certain information 
manipulate information in multimedia systems. If we together to form a unit. The node can be made up 
consider the use of textual data within multimedia from different types of information such as text. 
we can see that text can be stored, analysed. images. video, sound. etc. 
manipulated.generated synthetically, and extracted This page of information which you are currently 

~ ing is a node. Note that it contains some text. 

and alMwaage. Typically (in traditional multimedia 

treated as consisting of discrete entities (words, systems valual data is used for the linking, and 
sentences. paragraphs etc.) which obey a series of 
syntactict and semantic rules describing the 
interelationships. 


K 2-14 超 文 本 中 的 节点 和 定位 点 (感谢 David Lowe [6]) 


对 于 文本 ， 从 基于 纸 面 的 信息 向 超 文本 进行 迁移 的 第 一 个 步骤 是 将 格式 自动 转化 为 HTML。 
然后 ， 章 节 信息 可 以 保存 在 数据 库 中 。 然 后 ， 可 以 应 用 简单 的 数据 挖掘 技术 〈 按 词 干 检索 ) 很 方 
便 地 对 标题 和 题目 进行 分 析 以 提取 关键 词 一 一 如 通过 频率 统计 。 关 键 词 可 以 被 加 入 到 数据 库 中 。 
然后 ， 辅 助 程 序 就 可 以 在 相关 概念 之 间 自 动 生成 附加 的 超 链接 。 

这 类 程序 的 一 个 半自动 版 本 最 有 可 能 获得 成 功 ， 它 提供 被 接受 或 拒绝 ， 并 且 能 够 手动 添加 的 
建议 。 当 插入 新 的 节点 时 ， 数 据 库 管理 系统 可 以 维护 链接 的 完整 性 。 对 于 发 布 阶段 ， 考 虑 到 重建 
底层 信息 结构 的 难度 ， 因 此 我 们 希望 能 尽 可 能 晚 地 在 数据 上 施加 视点 (viewpoint). 

4， 超 图 像 

考虑 图 像 或 是 其 他 多 媒体 数据 时 ， 问 题 就 不 是 那么 直观 了 。 如 果 希 望 使 用 类 似 于 对 象 文本 的 
方法 来 对 竺 图像， 我 们 就 要 将 图 像 看 成 是 包含 对 象 和 其 他 锚 的 节点 ， 并 确定 图 像 的 实体 和 规则 。 
我 们 需要 的 是 能 够 帮助 我 们 生成 真正 的 超 媒体 的 自动 方法 ， 如 图 2-15 所 示 。 





2-15 超 媒体 结构 〈 感 谢 David Lowe[6]) 
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通过 屏蔽 图 像 区 域 ， 我 们 可 以 手动 地 描述 图 像 的 语法 元 素 ， 它 们 可 以 用 文本 进行 标记 ， 这 样 
我 们 就 可 以 使 用 前 面 基于 文本 的 方法 。 图 2-16 显示 了 “ 超 图 像 ” 它 具 有 一 个 确定 的 图 像 区 域 ， 
可 以 自动 地 链接 到 文档 的 其 他 部 分 。 


HE AA 


LLLA 
Hypermedia - /u/dbl/rec/hyper/data/groceries/demo.db : edible 












Load O8 Play DB File: peri data/groceries ‘demo.db 
Gote Quit Object: ədibi, 








HyperMedia Text 














2-16 MAR (感谢 David Lowe [6]) 


尽管 这 些 方法 还 处 于 起 步 阶 段 ， 但 已 经 展现 出 了 自动 编著 的 美好 前 景 。 自 然 的 ， 我 们 还 希望 [35 
了 解 哪些 数据 库 系统 、 数 据 挖掘 、 人 工 智能 等 方面 的 工具 可 以 用 来 帮助 我 们 开发 功能 全 面 的 多 媒 | ， 
体系 统 ， 而 不 仅仅 是 超 媒 体系 统 。 上 面 的 讨论 说 明 我 们 确实 还 只 是 处 在 起 步 阶段 。 


2.2 多 媒体 编辑 和 编著 工具 


本 书 重点 关注 多 媒体 的 原理 ， 即 真正 了 解 这 一 主题 所 需 的 基础 内 容 。 然 而 ， 我 们 需要 某 种 载 
体 来 体现 对 这 一 内 容 的 理解 ， 而 C++ 程序 或 是 Java 都 不 是 最 佳 的 选择 。 大 多 数 多 媒体 导论 课程 都 
要 求 你 至 少 能 够 完成 一 些 多 媒体 作品 〈 参 见 练习 11)， 所 以 我 们 需要 一 个 “ 助 推 器 ”来 帮助 你 学 
习 “ 其 他 的 软件 工具 ”， 本 节 就 将 介绍 这 个 “ 助 推 器 ”。 

因此 ， 我 们 将 考虑 一 些 流行 的 编著 工具 。 因 为 创建 多 媒体 应 用 的 第 一 个 步骤 是 创建 有 趣 的 视 
频 片 段 ， 所 以 我 们 将 首先 考查 视频 编辑 工具 。 尽 管 这 并 不 是 真正 的 编著 工具 ， 但 由 于 视频 创作 的 
重要 性 ， 我 们 将 对 这 类 程序 做 一 下 简单 介绍 。 

我 们 将 要 介绍 的 工具 包括 : 

e Adobe Premiere 6 

。 Macromedia Director 8 和 Macromedia Director MX 

e Flash 5 和 Flash MX 

e Dreamweaver MX 


这 些 工具 常常 用 于 开发 多 媒体 内 容 ， 当 然 这 里 并 没有 列 出 所 有 可 用 的 工具 。 
2.2.1 Adobe Premiere 


1. Premiere 的 基础 知识 


Adobe Premiere 是 一 款 非常 简单 的 视频 编 缉 程 序 ， 用 户 可 以 通过 组 合 和 合并 多 媒体 组 件 来 快 
速 地 创建 简单 的 数字 视频 。 它 有 效 地 使 用 了 乐谱 创作 模式 ， 在 乐谱 创作 模式 下 ， 所 有 的 组 件 都 被 
水 平 排放 在 时 间 轴 窗口 中 。 
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通过 “File 一 New Project” 命 令 可 以 打开 一 个 窗口 ， 窗 口中 包含 一 系列 的 预 置信 息 一 一 包括 帧 
的 分 辩 率 、 压 缩 方 法 和 帧 率 的 值 的 集合 。 此 外 还 有 很 多 预 置 的 选项 ， 大 多 遵循 NTSC 或 PAL 视频 
标准 。 

首先 可 以 导入 资源 ， 如 AVI (Audio Video Interleave， 音 频 视频 交叉 ) 视频 文件 和 WAV 声音 
文件 ， 并 将 它们 从 Project 窗口 中 拖拉 到 轨道 1 或 2 上 。( 事 实 上 , 你 最 多 可 使 用 99 条 视频 轨道 和 
99 条 音频 轨道 !) 

视频 1 实际 上 包含 三 个 轨道 : Video 1A (视频 1A)，Video 1B (视频 1B) 和 Transitions (YJ 
换 )。Transitions 可 以 仅仅 应 用 于 Video 1。Transition 可 以 由 Transition 窗口 拖拉 到 Transition 轨道 
上 ,例如 用 Video 1B 渐渐 替换 Video 1A〔 融 化 )， 棋 盘 中 随机 像素 点 的 突然 替换 (抖动 融化 )， 或 
是 擦拭 (一段 视频 滑 入 替代 另 一 段 视频 )。 程序 中 有 许多 可 选 的 切换 方式 ,你 也 可 以 使 用 Premiere 
的 Transition Factory 来 设计 独创 的 切换 方式 。 

可 以 通过 将 WAV 声音 文件 拖拉 到 时 间 轴 窗口 中 的 Audio1、Audio2 或 者 任何 其 他 的 声音 轨道 

来 导入 WAV 声音 文件 。 你 可 以 通过 右键 单 击 来 编辑 声音 轨道 的 属性 。 

图 2-17 显示 了 一 个 典型 的 Adobe Premiere 界面 .时 间 轴 窗口 顶部 的 黄色 标尺 表述 了 当前 工作 
的 时 间 轴 一 一 可 以 通过 拖拉 该 标尺 到 达 合 适 的 时 间 位 置 。 底 部 的 1 Second 下 拉 框 表示 目前 的 视频 
帧 率 为 每 秒 一 帧 。 























图 2-17 Adobe Premiere 的 界面 


要 对 视频 进行 “编译 ”， 使 用 “Timeline 一 Render Work Area” 并 将 工程 保存 为 .ppj 文件 。 现 在 
你 需要 作 一 些 选 择 ,包括 如 何以 及 用 何 种 格式 来 保存 视频 。 图 2-18 显示 了 工程 的 选项 。 包含 编 解 
人 码 方式 的 对 话 框 是 由 编 解码 生产 商 提 供 的 ， 我 们 可 以 单 击 Configure 按钮 来 得 到 它们 。 压 缩编 解 
m (压缩 -解压 缩 协议 ) 通常 位 于 视频 采集 卡 的 硬件 上 。 如 果 你 选择 了 需要 硬件 支持 的 编 解 码 算 
法 ， 那 么 别人 的 系统 就 可 能 无 法 播放 你 的 漂亮 的 数字 视频 ， 一 切 工作 都 是 徒劳 。 

图 像 也 可 以 被 插入 到 轨道 中 。 我 们 可 以 使 用 切换 方式 让 图 像 在 最 终 的 视频 窗口 中 渐渐 出 现 或 
是 渐渐 消失 。 为 了 实现 这 一 目的 ， 我 们 需要 建立 一 个 “ 掩 模 ” 图 像 ， 如 图 2-19 所 示 。 这 里 ， 我 们 
导入 了 Adobe Photoshop 的 层次 图 像 ， 它 具有 在 Photoshop 中 创建 的 alpha 通道 。 

接着 在 Premiere 中 ， 我 们 单 击 位 于 视频 轨道 中 的 图 像 ， 并 使 用 “Clip 一 Video Options 一 
Transparency "来 设置 Alpha 通道 的 键 ( 它 将 触发 透明 性 )。 也 可 以 使 用 Clip 一 Video Options Motion 

来 实现 图 像 在 视频 帧 中 飞 入 飞 出 。 
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在 Photoshop 中 ， 我 们 通过 下 列 步骤 设置 alpha 通道 : 

1) 使 用 你 喜欢 的 图 片 ， 如 .JPG 文件 。 

2) 用 单 色 作 为 背景 ， 如 白色 。 

3) 选择 “Image 一 Mode 一 RGB Color”. 

4) 选择 背景 区 域 (你 希望 在 Premiere 中 保持 不 透 色 的 区 域 )， 可 以 使 用 魔术 棒 工 具 来 完成 。 


tp: raface.psd ree | 













pay. xi 

Microsoft MPEG-4 Video Codec V2 Mpa | 
Copyright © Microsoft Corp. 1996-1999 a) RGB 通道 

i Options ie eae Ce 

Keyfame every [ff seconds | 

| Smoothness 75 ， Crispness 

| Fe +) 

r Data Rate [Kilobits per Second) 

| 3000 


3j e 2 





es | 
b) 压缩 选项 b) alpha 通道 
图 2-18 设置 选项 图 2-19 Heft 


5) 选择 “Select 一 Save Selection...”。 

6) 确定 “Channel = New”。 按 下 “OK”。 

7) 选择 “Window 一 Show Channel”。 双 击 新 的 通道 ， 并 将 其 重 命名 为 Alpha。 将 其 颜色 设置 
为 (0，0，0)。 

8) 将 其 保存 为 PSD 文件 。 

如 来 在 Photoshop 中 创建 的 alpha 通道 具有 白色 的 背景 色 , 那么 当 你 在 Premiere 中 选择 Alpha 
时 需要 选择 Reverse Key。 

Premiere 有 比较 简单 方法 来 为 数字 视频 创建 标题 (在 需要 荣誉 的 地 方 给 予 荣誉 )。 

Premiere 男 一 个 很 不 错 的 特点 是 它 可 以 很 方便 地 捕捉 视频 。 为 了 从 录像 带 或 摄像 放 像 机 中 得 
到 一 段 数字 视频 ， 选 择 “File 一 Capture 一 Movie Capture”( 视 频 /音频 捕捉 选项 的 菜单 可 以 通过 右 
键 单 击 捕捉 窗口 得 到 )。 类 似 的， 将 其 存 为 模拟 格式 也 非常 简单 。 

2. Premiere 的 切换 

Premiere 提供 了 多 种 有 趣 的 视频 切换 方式 。 然而， 通过 对 结果 视频 进行 逐 帧 的 检查 会 发 现 内 
建 的 切换 方式 并 不 像 “ 广 告 ”所 说 的 那样 工作 。 例 如 ， 通 过 仔细 的 检查 ， 我 们 发 现 一 种 声称 是 基 
于 时 间 的 线性 擦拭 方法 在 一 开始 就 是 非 线 性 的 一 一 视频 切换 线 的 运动 并 不 是 匀速 的 。 

如 果 感 兴趣 的 话 ， 我 们 可 以 使 用 Premiere 的 Transition Factory 为 我 们 提供 的 大 量 的 函数 来 创 
建 自己 的 切换 方式 。 由 于 我 们 实际 上 处 于 一 种 int 的 状态 下 ， 因 此 这 些 函 数 (如 sin 和 cos) 都 具 


39 


28 BHD ZSRKBFPRHBRA 


有 整数 〈 而 非 浮 点 数 ) 的 值 域 和 定义 域 。 所 以 在 使 用 时 我 们 需要 注意 这 个 问题 。 习 题 9 给 出 了 实 
际 问题 中 的 一 些 详细 信息 。 
2.2.2 Macromedia Director 

1. Director 的 窗口 

Director 是 一 个 用 来 创建 互动 式 “ 电 影 ”的 完整 环境 〈 见 图 2-20)。 它 使 用 了 电影 模式 ， 程 序 
中 的 窗口 就 显示 了 这 一 点 。 动 作 发 生 的 主 窗 口 称 为 舞台 (Stage)。 显 式 地 打开 舞台 将 会 自动 关闭 
其 他 所 有 窗口 (一 种 有 用 的 快捷 方式 是 Shift+Keypad-Enter (数字 键盘 边 上 的 回 车 键 ， 并 非 通常 意 
义 上 的 回 车 键 )， 这 将 清除 除 舞 台 窗 口 之 外 的 所 有 窗口 ， 并 开始 电影 的 播放 。) 
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图 2-20 Director 的 主 窗口 


另外 两 个 主要 的 窗口 是 Cast 和 Score. Cast 中 包含 影片 会 用 到 的 资源 ， 如 位 图 、 声 音 、 向 量 
图 、Flash 电影 、 数 字 视 频 和 脚本 。Cast 中 的 成 员 可 以 直接 创建 或 从 其 他 位 置 导入 。 通常， 你 可 以 
创建 多 个 Cast， 以 便 更 好 地 组 织 电影 的 不 同 部 分 。 可 以 从 Cast 窗口 中 拖 搜 Cast 成 员 ， 将 其 放 在 
舞台 上 。 因 为 一 个 Cast 成 员 要 用 到 多 个 实例 ， 所 以 每 个 实例 称 为 一 个 分 镜 。 一 般 而 言 ，Cast 成 员 
是 原始 媒体 ， 而 分 镜 则 是 控制 在 舞台 和 影片 上 Cast 成 员 在 何 时 、 何 地 以 及 如 何 出 现 的 对 和 象 。 

向 分 镜 中 添加 预定 义 或 专门 的 “行为 ”( 例 如 让 分 镜 跟踪 鼠标 ) 可 以 使 其 具有 交互 性 。 行 为 
位 于 Director 的 内 部 脚本 语言 中 ， 这 种 语言 称 为 Lingo。Director 是 一 种 标准 的 事件 驱动 程序 ， 可 
以 方便 地 进行 对 象 定 位 并 向 对 象 添加 事件 过 程 。 

有 许多 预定 义 的 事件 集 ， 其 中 包含 鼠标 事件 以 及 网 络 事件 等 〈 后 者 的 一 个 例子 是 测试 角色 成 
员 是 否 被 成 功 下 载 )。 可 行 的 控制 方式 是 在 部 分 展现 中 不 断 循 环 直 到 视频 下 载 完成 为 止 ， 然 后 继 
续 或 跳 转 到 另 一 帧 。 位 图 可 以 用 来 作为 按钮 ， 最 常见 的 用 途 是 在 单 击 按钮 后 跳 转 至 另外 一 帧 。 

乐谱 窗口 由 一 组 水 平 线 〈 一 条 线 对 应 一 个 分 镜 ) 和 垂直 的 帧 组 成 。 因 此 ， 乐 谱 窗 口 看 起 来 和 
音乐 的 乐谱 比较 相似 ， 也 是 按时 间 顺 序 从 左 至 右 排列 ， 但 是 它 更 像 MIDI 文件 中 的 事件 链表 〈 参 
见 第 6 章 )。 

预定 义 和 用 户 定义 的 行为 类 型 均 在 Lingo 中 。 调 色 板 库 提供 了 对 所 有 预定 义 行为 脚本 的 访问 
方式 。 你 可 以 向 一 个 分 镜 中 添加 行为 或 向 整个 帧 中 添加 行为 。 

如 果 行 为 中 包含 参数 ， 那 么 就 会 出 现 一 个 对 话 框 。 例 如 ， 对 于 网 页 浏览 行为 ， 我 们 需要 指定 
要 跳 转 的 帧 。 你 可 以 将 同样 的 行为 附加 给 许多 分 镜 或 帧 ， 并 为 每 个 实例 指定 不 同 的 参数 。 大 多 数 
行为 都 能 响应 简单 的 事件 ， 如 在 分 镜 上 的 单 击 或 是 在 “ 放 音 磁头 ”进入 一 帧 时 触发 的 事件 。 大 多 
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数 的 基本 功能 〈 如 声音 的 播放 ) 都 被 封装 在 程序 包 中 。 开 发 自 定义 的 Lingo 脚本 则 能 提供 更 多 的 
灵活 性 。 我 们 可 以 在 Inspector 窗口 (包括 Behavior Inspector 和 Property Inspector) 中 修改 行为 。 

2. 动画 

传统 的 动画 是 按时 间 先 后 显示 稍 有 不 同 的 图 像 实现 的 。 在 Director 中 ， 这 一 方法 意味 着 在 不 
同 的 帧 中 使 用 不 同 的 成 员 。 为 了 便于 控制 这 个 过 程 ，Director 允许 将 多 个 成 员 合 并 为 一 个 单独 的 
分 镜 〈 如 果 要 在 乐谱 上 显示 ， 选 择 所 有 需要 合并 的 图 像 ， 使 用 Cast To Time 菜单 项 使 它们 显示 在 
当前 的 乐谱 位 置 上 )。 一 个 有 用 的 特点 是 ， 通 过 扩展 这 类 动画 乐谱 上 的 时 间 可 以 减缓 每 一 幅 图 像 
的 播放 时 间 ， 这 样 整个 动画 就 可 以 按照 规定 的 时 间 长 度 来 完成 播放 。 

男 一 种 相对 简单 的 动画 方法 是 使 用 Director 的 渐变 (tweening) 功能 。 这 里 ， 你 需要 在 舞台 
上 移动 某 幅 图 像 并 保持 原 图 不 变 。“ 渐 变 ” 是 初级 动画 人 员 的 工作 ， 他 们 主要 负责 在 高 级 动画 人 
员 创 作 的 关键 帧 之 间 进 行内 容 填充 一 一 在 Director 中 是 自动 完成 的 。 

为 了 实现 这 种 动画 ， 在 舞台 上 确定 渐变 帧 的 路 径 。 你 也 可 以 确定 一 些 关 键 帧 以 及 关键 帧 之 间 
的 曲线 变化 。 你 还 需要 确定 在 运动 的 开头 和 结尾 处 图 像 如 何 加 速 和 减速 (“组 入 ”和 “ 缓 出 ”)。 
图 2-21 显示 了 渐变 的 分 镜 。 

男 一 类 广泛 使 用 的 简单 动画 形式 称 为 调 色 板 动画 。 如 果 图 像 是 8 位 的 ， 那 么 在 颜色 查找 表 中 
循环 搜索 或 是 系统 地 对 查找 表 的 条 目 进行 替换 可 以 得 到 非常 有 趣 (或 是 奇异 ) 的 效果 。 

乐谱 窗口 的 重要 特性 包括 通道 、 帧 和 播放 头 。 后 者 表示 我 们 在 乐谱 中 的 位 置 。 单 击 乐谱 中 的 
任意 位 置 将 对 播放 头 重新 定位 。 通 道 是 乐谱 中 的 行 ， 可 以 包括 可 见 媒体 的 分 镜 实 例 。 因 此 ， 这 些 
编号 的 通道 又 称 为 分 镜 通 道 。 

在 乐谱 窗口 的 顶端 是 用 来 控制 调 色 板 、 速 度 、 切 换 和 声音 的 特效 通道 。 图 2-22 显示 了 Score 
窗口 中 的 这 些 通道 。 在 分 镜 和 特效 通道 中 ， 帧 被 水 平 编 号 。 和 传统 电影 一 样 ， 帧 是 影片 中 的 一 个 
独立 单元 。 我 们 可 以 通过 修改 每 秒 的 帧 数 来 控制 影片 的 播放 速率 。 





E star? Stage (100%) 

















图 2-21 渐变 的 分 镜 Æ 2-22 Score 窗口 

3， 控 制 

你 可 以 在 任意 帧 中 加 入 命名 标记 。 最 简单 的 控制 事件 就 是 跳 转 至 特定 的 标记 。 在 Director 中 ， 
每 个 标记 是 一 个 场景 的 开始 。 触 发 帧 浏览 的 事件 是 Go To Frame, Go To Marker 或 者 Hold on Current 
Frame, Hold on Current Frame 将 使 影片 停止 在 当前 帧 的 位 置 。 帧 的 行为 将 在 乐谱 窗口 的 脚本 通道 
中 显示 。 

按钮 就 是 附加 了 行为 的 位 图 。 你 通常 需要 两 幅 位 图 ， 分 别 刻画 按钮 按 下 和 放 开 时 的 状态 。 内 
建 的 on mouseUp 事件 则 产生 跳 转 。 
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4. Lingo 脚本 

Director 使 用 四 种 类 型 的 脚本 : 行为 、 演 员 的 附加 脚本 、 电 影 脚本 和 父 脚本 。 行 为 、 电 影 脚 
本 和 父 脚 本 在 演员 窗口 中 都 作为 演员 出 现 。 

“行为 ”是 附加 到 分 镜 或 帧 上 的 Lingo 脚本 。 根 据 用 户 是 否 单 击 按钮 ， 你 可 以 使 用 脚本 来 确定 
分 镜 是 否 移 动 。 一 个 非常 有 用 的 特点 是 脚本 可 以 根据 多 媒体 资源 的 下 载 程度 来 控制 其 播放 的 开始 
时 间 。 如 果 希 望 添加 行为 ， 可 直接 将 其 从 一 个 演员 拖 搜 到 乐谱 或 舞台 中 的 一 个 分 镜 或 一 帧 上 。 

我 们 也 使 用 电影 脚本 ， 它 对 于 整个 影片 都 是 可 用 的 。 电 影 脚 本 可 以 控制 当 电影 开始 、 结 束 或 
暂停 时 的 事件 响应 ， 此 外 还 可 以 对 诸如 按键 或 鼠标 单 击 这 样 的 事件 进行 响应 。 父 脚本 可 以 用 来 为 
一 个 对 象 创建 多 个 实例 ， 而 无 需 向 乐谱 中 添加 演员 。 

用 户 定义 的 Lingo 脚本 可 以 用 来 创建 动画 或 对 典型 事件 (如 用 户 利用 键盘 和 和 鼠标 产生 的 动作 》 
进行 响应 。 脚 本 同样 可 以 用 来 流 化 视频 、 浏 览 网 页 以 及 格式 化 文本 等 。 

Lingo 脚本 还 可 以 在 乐谱 的 基础 上 对 行为 加 以 进一步 的 扩展 。 基 本 的 数据 类 型 是 链表 ， 这 是 
最 基本 的 数据 结构 。 你 同样 可 以 使 用 链表 进行 数组 的 操作 。 此 外 ， 还 有 数学 运算 和 字符 串 操作 。 
链表 具有 两 种 类 型 ， 线 形 和 属性 。 

线形 链表 就 是 LISS 中 的 链表 ， 例 如 {32，43，12}。 属 性 链表 是 一 个 关联 列表 ， 这 种 列表 也 
和 LISP 中 的 链表 类 似 : 每 个 元 素 都 包含 两 个 用 冒号 隔 开 的 值 。 每 个 属性 前 都 有 一 个 数字 符号 。 
例如 ， 下 面 的 语 甸 生成 了 两 个 规定 分 镜 坐 标的 属性 链表 : 


spritelLocation = (#left:100, #top:150, #right:300, #bottom:350) 
sprite2Location = [#left:400, #top:550, #right:500, #bottom:750] 


Lingo 具有 很 多 对 链表 进行 操作 的 函数 。 例 如 ，appena 可 以 在 链表 的 结尾 增加 一 个 元 素 ， 
deleteOne 可 以 从 链表 中 删除 一 个 值 。 

Lingo 规范 

。 函数 the frame 表示 当前 帧 。 

。 特殊 标记 next M previous 表示 相 邻 的 标记 (不 是 相 邻 的 帧 )。 

° 函数 marker(-1) 返回 前 一 标记 的 标识 符 。 如 果 当 前 帧 被 标记 并 有 标记 名 ， 那 么 

marker (0) 返回 当前 帧 的 标记 名 ;否则 ， 它 返回 前 一 标记 的 名 称 。 
。 Movie "Jaws'" 表 示 名 为 “Jaws” 的 全 局 电影 的 起 始 帧 。 通 常 它 是 男 一 个 Director 电影 
的 名 字 。 引 用 frame 100 of movie“Jaws” 指 向 这 部 电影 。 l 

这 些 细节 在 在 线 帮助 的 Lingo 部 分 都 已 详细 列 出 。 帮 助 目录 “Learning Lingo. Examples” 下 
有 许多 DIR 文件 详细 描述 了 Lingo 使 用 的 基础 知识 

5. Lingo 的 窗 中 电影 

作为 Lingo 应 用 的 精子 ， 关 于 如 何 创建 窗 中 电影 的 Linge MLSNI A T E 
脚本 。 

Lingo 是 一 种 标准 的 事件 驱动 程序 语言 。 事 件 处 理 程序 附加 到 特定 的 事件 ， 如 mouseDown 
消息 。 脚本 中 包括 事件 处 理 程序 。 你 可 以 通过 将 脚本 附加 到 对 象 来 实现 事件 处 理 程序 和 对 象 的 绑 定 。 

6. 3D 分 镜 

Director 新 增 的 一 项 功能 是 在 舞台 中 创建 、 导 入 和 操纵 3D 对 象 。 可 以 加 入 到 Director 的 一 个 
简单 的 3D 对 象 是 3D 文本 。 为 了 创建 3D 文本 ， 首 先 选 中 任意 的 普通 文本 ， 然 后 在 属性 查看 器 
(Property Inspector) 中 单 击 Text (文本) 选项 卡 ， 将 显示 模式 设 为 3D。 其 他 选项 ， 如 文本 深度 和 
SUR, 可 以 通过 属性 查看 器 中 的 3D Extruder 选项 卡 来 改变 ,这 些 属性 也 可 以 在 Lingo 中 动态 设置 ， 
使 文本 可 以 根据 电影 的 进度 而 改变 。 

除 文本 外 的 其 他 3D 对 象 只 有 通过 Lingo 实现 ， 或 从 3D Studio Max 中 导入 。Director 支持 很 
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多 基本 的 3D 动画 元 素 ， 包 括 如 球形 和 用 户 定义 网 格 这 样 的 基本 形状 。 可 以 为 这 些 基 本 形状 加 入 
纹理 和 阴影 。 纹 理 是 加 在 3D 模型 上 的 2D 图 像 ， 而 阴影 则 定义 了 基本 模型 的 外 观 。 我 们 还 可 以 在 
场景 中 加 入 光线 。 默 认 情 况 下 ， 整 个 场景 中 都 充满 了 光线 。 可 以 增加 的 光线 有 四 类 : 充满 的 、 有 
向 的 、 点 式 的 和 聚焦 式 的 。 也 可 以 指定 光线 的 强度 和 颜色 。 

用 户 的 视角 ， 又 称 为 摄像 机 ， 可 以 进行 移动 以 便 从 不 同 角度 展示 3D 对 和 象 。 摄像 机 的 运动 (如 
水 平 摇动 和 垂直 倾斜 ) 可 以 通过 库 (Library) 窗口 的 内 建 脚本 来 控制 。 

7， 属 性 和 参数 

为 Lingo 行为 定义 行为 参数 可 以 增加 创建 时 灵活 性 。 参数 可 以 通过 在 行为 创建 时 提供 输入 来 
改变 行为 。 如 果 没 有 定义 参数 ， 那 么 就 会 使 用 默认 值 。 改 变 一 个 特定 行为 的 参数 是 很 容易 的 ， 只 
需 在 它 附加 到 另 一 个 演员 时 双击 行为 的 名 字 就 可 以 了 。 图 2-23 显示 了 改变 参数 的 对 话 框 。 

行为 可 以 具有 名 为 getPropertyDescriptionList 
的 特殊 处 理 程序 ， 当 创建 附加 于 行为 的 分 镜 时 它 开始 运行 。 处 
理 程序 返回 一 组 可 以 加 入 到 addProp 函数 中 的 参数 。 例 如 ，。 Preah r 
如 果 Lingo 创建 一 个 运动 行为 , 那么 可 以 加 入 参数 来 规定 运动 ttt der a 
的 方向 和 速度 。 行 为 可 以 附加 于 多 个 演员 上 为 运动 进行 说 明 。 

getPropertyDescriptionList 中 定义 的 参数 是 通 
过 该 行为 任何 句柄 都 可 以 访问 的 行为 的 属性 。 我 们 可 以 通过 
在 处 理 程序 外 使 用 property 关键 字 并 列 出 所 有 属性 (用 去 
号 分 隔 ) 来 定义 行为 的 属性 。 全 局 变量 可 以 通过 行为 进行 访 图 2-23 Parameters 对 话 框 
问 。 它 们 可 以 像 属性 那样 被 声明 ， 只 是 要 用 global 关键 字 。 任 何 需要 访问 全 局 变量 的 行为 必须 
用 global 关键 字 加 以 声明 。 

8. Director 对 象 

Director 主要 有 两 类 对 象 : 一 类 在 Lingo 中 创建 ， 另 一 类 是 在 乐谱 中 创建 的 。 父 脚本 可 以 用 
来 在 Lingo 中 创建 新 对 象 。 通 过 在 属性 查看 器 中 改变 脚本 的 类 型 ， 我 们 可 以 将 行为 转化 为 一 段 父 
脚本 。 父 脚本 和 其 他 行为 不 同 ， 当 在 Lingo 脚本 中 创建 父 脚本 时 ， 参 数 将 传递 给 对 象 。 

父 脚本 只 能 在 Lingo 中 创建 和 修改 ， 而 乐谱 中 的 对 象 只 能 被 操纵 。 最 常用 的 对 象 是 乐谱 中 的 
分 镜 。 分 镜 只 能 和 引用 它们 的 Lingo 脚本 在 同一 时 段 内 使 用 。 可 以 使 用 Sprite 关键 字 加 上 分 镜 
通道 号 来 指定 在 某 个 通道 对 分 镜 进行 引用 。 

分 镜 具有 很 多 属性 ， 这 些 属性 用 于 执行 不 同 的 行为 。locv 和 loch 属性 可 以 分 别 改 变 分 镜 
的 垂直 和 水 平 位 置 。membez 属性 则 规定 了 分 镜 中 的 演员 并 可 以 改变 附加 于 行为 上 的 演员 。 这 在 
动画 中 是 非常 有 用 的 ， 可 以 在 Lingo 中 改变 分 镜 来 反映 细微 的 变化 ， 而 无 需 在 乐谱 中 完成 。 


2.2.3 Macromedia Flash 


Flash 是 用 来 创作 交互 式 电影 的 一 个 简单 的 编著 工具 。Flash 采用 乐谱 模式 来 进行 电影 的 创作 
和 窗口 的 组 织 。 在 本 节 中 ， 我 们 将 简单 介绍 Flash 并 提供 一 些 有 关 其 使 用 的 例子 。 


% Behavior Inspector 





1. RV 
电影 是 由 一 个 或 多 个 场景 构成 的 ， 每 一 个 场景 都 是 电影 中 的 一 个 独立 部 分 。 利 用 “Insert 一 
Scene” 命 令 可 以 在 当前 的 电影 中 创建 一 个 新 的 场景 。 


在 Flash 中 ， 构 成 电影 的 组 件 〈 如 图 像 和 声音 ) 称 为 符号 (Symbol)， 我 们 可 以 通过 把 符号 放 
置 到 舞台 上 来 将 其 添加 到 电影 中 。 舞 台 是 位 于 屏幕 中 央 窗 口中 的 一 个 始终 可 见 的 大 的 白色 矩形 。 
Flash 中 另外 三 个 重要 的 窗口 包括 时 间 轴 (Timeline). Æ (Library) 和 工具 (Tools). 
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2， 库 窗口 

库 窗 口中 显示 当前 场景 中 的 所 有 符号 ， 并 可 以 用 “Window 一 Library” 命 令 来 切换 这 些 符号 。 
可 以 通过 双击 库 窗 口中 符号 的 名 字 来 编辑 ， 使 其 出 现在 舞台 中 。 如 果 要 添加 符号 ， 只 需 将 其 从 库 
中 拖 搜 到 舞台 中 。 

3， 时 间 轴 窗口 

时 间 轴 窗口 控制 场景 的 层次 和 时 间 轴 。 时 间 轴 窗口 的 左边 部 分 由 舞台 中 的 一 或 多 层 组 成 ， 可 
以 使 你 方便 地 对 舞台 内 容 进行 组 织 。 库 中 的 符号 可 以 被 拖 搜 到 舞台 中 的 某 个 层次 上 。 例 如 ， 一 个 
简单 的 电影 可 以 有 两 个 层次 ， 即 背景 和 前 景 。 当 选中 背景 层 时 ， 库 中 的 背景 图 形 可 以 被 抱 搜 到 
舞台 中 。 

对 于 层 而 言 ， 另 一 个 有 用 的 功能 是 锁定 或 隐藏 层 。 点 击 层 名 称 旁 边 的 圆 形 按钮 ， 可 以 在 层 的 
隐藏 /锁定 状态 间 切 换 。 当 在 另 一 个 层 中 定位 或 编辑 一 个 符号 时 ， 隐 藏 层 非常 有 用 。 层 完成 之 后 ， 
可 以 锁定 该 层 以 免 其 中 的 符号 被 意外 修改 。 

时 间 轴 窗口 右 侧 由 场景 中 每 一 层 使 用 的 水 平 栏 组 成 , 和 乐谱 很 相似 。 它 表 示 影 片 经 过 的 时 间 。 
在 不 同 的 层 中 ， 时 间 轴 包含 一 些 关 键 帧 。 按 F6 键 可 以 在 当前 层 中 插入 关键 帧 。 启 动 一 个 动画 或 
一 个 新 符号 的 出 现 这 样 的 事件 必须 在 关键 帧 中 设置 。 点 击 时 间 轴 会 改变 当前 编辑 的 影片 的 时 间 。 

4， 工 具 窗口 

工具 窗口 主要 用 来 进行 图 像 的 创建 和 操作 , 它 主要 由 四 部 分 构成 : 工具 ( Tools )、 视 图 ( Views)、 
色彩 (Colors) 和 选项 (Options)。 工 具 中 包括 选择 工具 ， 可 以 用 来 对 现 有 的 图 片 进行 分 割 ， 此 外 
还 有 一 组 简单 的 绘图 工具 ， 如 铅笔 和 油漆 桶 等 。 视 图 中 包括 缩放 工具 和 指针 工具 ， 可 以 用 这 些 工 
具 在 舞台 中 浏览 。 色 彩 工具 则 用 于 选取 前 景 和 背景 色 ， 并 标记 出 需要 操作 的 颜色 。 选 项 工具 则 用 
于 在 选中 某 种 工具 时 提供 附加 选项 。 

有 许多 其 他 的 窗口 也 可 用 于 操纵 符号 。 除 时 间 轴 窗口 用 View-Timeline 命令 切换 外 ， 其 他 窗 
口 都 可 以 在 Window 菜单 下 切换 。 图 2-24 显示 了 基本 的 Flash 界面 。 
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图 2-24 Macromedia Flash 
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5. #F 

符号 可 以 由 其 他 符号 组 成 ， 或 是 通过 绘制 和 导入 得 到 。Flash 可 以 向 符号 库 中 导入 多 种 音频 、 
图 像 或 视频 格式 。 可 以 使 用 “File 一 Import” 命 令 来 导入 符号 ， 并 将 其 自动 添加 到 当前 库 中 。 按 下 
Ctrl+Fg8 可 以 为 影片 添加 一 个 符号 。 此 时 ， 会 出 现 一 个 弹出 式 对 话 框 ， 你 可 以 在 这 个 对 话 框 中 指定 
符号 的 名 称 和 行为 。 符 号 可 以 有 以 下 三 种 行为 : 按钮 、 图 形 或 电影 。 符 号 〈 例 如 一 个 按钮 ) 可 以 
使 用 工具 窗口 来 绘制 。 

6. $4 

为 了 创建 一 个 简单 的 按钮 ， 可 以 利用 按钮 行为 创建 一 个 新 符号 。 时 间 轴 窗口 应 该 具有 四 个 关 
SEW: up. down, over 和 hit。 这 些 关 键 帧 显示 当 特 定 动作 发 生 时 按钮 的 不 同 外 观 。 只 有 up 
关键 帧 是 必须 的 ， 它 也 是 默认 的 ， 其 他 关键 帧 都 是 可 选 的 。 可 以 按 如 下 方法 绘制 按钮 : 选择 工具 
窗口 中 的 矩形 工具 ， 然 后 将 一 个 矩形 拖拉 到 舞台 中 。 

为 了 使 按钮 的 外 观 能 够 在 事件 触发 时 发 生 改 变 ， 我 们 可 以 通过 单 击 相应 的 关键 帧 来 创建 按钮 
图 像 。 在 至 少 定 义 一 个 关键 帧 之 后 , 我 们 就 完成 了 一 个 基本 的 按钮 ,尽管 此 时 尚未 添加 任何 动作 。 
动作 将 在 后 面 的 “动作 脚本 ”一 节 中 加 以 讨论 。 

利用 其 他 符号 来 创建 符号 和 创建 场景 类 似 ， 也 就 是 将 所 需 的 符号 从 库 中 拖拉 到 舞台 中 。 这 将 
实现 通过 简单 符号 来 创建 复杂 符号 。 图 2-25 显示 了 创 
建 符号 的 对 话 框 。 

7. Flaha® 

可 以 通过 在 符号 的 关键 帧 之 间 生 成 细微 的 差别 来 
获得 动画 。 在 第 一 个 关键 由 中， 我们 可 以 把 需要 产生 l 
动画 的 符号 从 库 中 拖拉 到 舞台 上 。 然 后 插入 另 一 个 关 AS ena 
键 帧 ， 使 符号 发 生变 化 。 这 个 过 程 可 以 不 断 重 复 。 尽 管 这 个 过 程 比较 耗 时 ， 但 比 其 他 动画 技术 具 
有 更 大 的 灵活 性 。Flash 同样 支持 以 其 他 更 为 简单 的 方式 创建 特定 的 动画 。 渐变 可 以 生成 简单 的 动 
画 ， 这 种 方式 可 以 自动 完成 关键 帧 之 间 的 变化 处 理 。 

8. 渐变 

渐变 有 两 种 形式 : 形状 渐变 和 运动 渐变 。 形 状 渐变 可 以 用 来 创建 一 个 形状 ， 该 形状 会 随 着 时 
间 改 变 为 其 他 形状 。 运 动 渐 变 则 允许 你 在 舞台 中 的 不 同 关键 帧 中 的 不 同位 置 放置 一 个 符号 。Flash 
自动 在 起 始点 和 结束 点 之 间 填 充 关 键 帧 。 要 执行 运动 渐变 ， 首 先 选择 要 进行 渐变 的 符号 ， 然 后 选 
择 “Insert 一 Create Motion Tween” 命 令 ， 以 及 结束 帧 。 接 着 使 用 “Insert 一 Frame” 命 令 ， 并 将 符 
号 移动 至 需要 的 位 置 。 更 高 级 的 渐变 可 以 对 路 径 和 加 速 进行 控制 。 运 动 渐变 和 形状 渐变 结合 在 一 
起 可 以 获得 其 他 的 效果 。 

掩 模 动 画 涉 及 对 掩 模 层 的 操作 ， 掩 模 层 是 一 个 选择 性 地 覆盖 其 他 层 的 一 部 分 的 图 层 。 例 如 ， 
为 了 获得 爆炸 效果 , 可 以 使 用 掩 模 来 覆盖 除 爆炸 中 心 外 的 其 他 所 有 区 域 。 形状 渐变 可 以 扩大 掩 模 ， 
这 样 就 可 以 看 到 整个 爆炸 效果 了 。 图 2-26 显示 了 加 入 渐变 效果 前 后 的 场景 。 


Symbol Properties 


mien MULTIMED, 


图 2-26 字母 渐变 前 后 
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9. 动作 脚本 
动作 脚本 可 以 用 于 触发 事件 ， 如 移动 到 不 同 的 关键 帧 或 是 让 影片 停止 播放 等 。 动 作 脚本 可 以 
附加 到 关键 帧 或 附加 到 关键 帧 的 符号 上 。 碳 键 单 击 符号 并 在 列表 中 按 下 Actions 可 以 修改 符号 
的 动作 。 类 似 地 ， 通 过 右键 单 击 关键 帧 并 在 弹出 部 分 按 下 Actions， 就 可 以 将 动作 应 用 到 关键 帧 
上 。 此 时 将 会 出 现 Frame Action 〈 帧 的 动作 ) 窗口 ， 左 边 是 所 有 可 用 动作 的 列表 ， 右 边 是 当前 已 被 
应 用 的 动作 标记 。 动作 脚本 可 以 分 为 六 类 : 基本 动作 、 
动作 、 运 算 符 、 函 数 、 属 性 和 对 象 。 图 2-27 显示 了 帧 
动作 窗口 。 
基本 动作 (Basic Actions ) 可 以 用 于 为 影片 添加 一 
些 简单 的 动作 。 常 用 的 动作 包括 : 
e GOTO 使 影片 前 进 到 规定 的 关键 帧 处 ， 并 可 以 
停止 。 停 止 动作 通常 用 来 让 用 户 停止 交互 式 电 

















影 的 播放 。 
。Play 如 果 影 片 停止 ， 继 续 播放 影片 。 

e Stop 如 果 影 片 正 在 播放 ， 则 停止 影片 的 播放 。 图 2-27 动作 脚本 窗口 

e Tell Target 向 Flash 中 的 不 同 符号 和 关键 帧 发 送 消息 。 它 通常 用 来 开始 或 停止 不 同 符 
号 或 关键 帧 上 的 动作 。 


动作 (Action) 类 型 中 包含 很 多 程序 结构 ， 如 Loops 和 Goto 语句 。 此 外 还 包括 其 他 动作 ， 
和 常用 的 高 级 事件 驱动 的 编程 语言 (如 Visual Basic) 非常 类 似 。 运 算 符 (operator) 类 型 则 包括 
变量 的 比较 和 赋值 运算 符 ， 使 你 可 以 在 动作 脚本 中 对 变量 进行 运算 。 

函数 (Function) 目录 包括 Flash 中 那些 并 非 Flash 对 象 专 有 的 内 建 函 数 。 属 性 ( Properties ) 
部 分 则 包括 了 所 有 Flash 预定 义 的 全 局 变量 。 例 如 ， 定 义 _currentframe 来 表示 当前 帧 。 对 象 


( Object) 类 型 列 出 所 有 的 对 象 ， 如 影片 片段 或 字符 串 以 及 它们 的 相关 函数 。 


按钮 需要 动作 脚本 (事件 过 程 )， 这 样 按 下 按钮 才 会 有 某 种 效果 。 将 一 个 动作 (如 重 放 Flash 
影片 ) 直接 附加 给 按钮 是 很 简单 的 。 选 中 按钮 并 单 击 已 打开 位 于 屏幕 右 下 角 的 动作 脚本 窗口 。 然 
后 单 击 Basic Actions， 将 产生 一 个 下 拉 式 动作 列表 。 双 击 Play 动作 会 自动 将 它 添加 到 窗口 
的 右边 。 现 在 单 击 这 个 按钮 将 会 实现 影片 的 重 放 。 


2.2.4 Dreamweaver 

Dreamweaver 是 一 款 非 常 流行 的 Macromedia 产品 (当前 版 本 是 Dreamweaver MX)， 可 以 用 
来 开发 支持 多 媒体 的 网 页 和 基于 HTML、XML 以 及 其 他 格式 的 Internet 应 用 程序 。 它 提供 了 可 视 
化 的 布局 工具 以 及 编辑 JavaScript、Active Server Pages、PHP 和 XML 这 些 文件 格式 的 代码 的 能 力 。 
该 产品 和 其 他 的 Macromedia 产品 (如 Flash MX 以 及 Fireworks MX) 集成 在 一 起 。 

除了 作为 基本 的 WYSIWYG 网 页 开发 工具 之 外 , Dreamweaver 男 一 个 和 编著 有 着 更 为 直接 联 
系 的 部 分 是 它 具 有 一 组 预 封装 的 行为 ， 并 且 这 些 行为 是 可 扩展 的 。 这 些 行为 从 本 质 上 来 说 是 事件 
可 能 的 事件 集 对 于 不 同 的 目标 浏览 器 来 说 是 不 同 
的 ， 并 且 可 以 根据 版 本 号 和 浏览 器 重新 配置 。 计 算 机 科学 专业 的 学 生 可 以 编写 自己 的 JavaScript 
代码 并 将 其 附加 到 事件 上 。 


2.3 VRML 


2.3.1 概述 
VRML (Virtual Reality Modeling Language， 虚 拟 现实 建 模 语 言 ) 诞生 于 第 一 届 国 际 万 维 网 会 
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i. Mark Pesce, Tony Parisi 和 David Ragget 在 会 议 上 提出 了 VRML 的 结构 ， 并 且 确 定 它 将 是 应 
用 在 Internet 上 的 与 平台 无 关 的 语言 。VRML 的 目标 是 将 有 色彩 的 对 象 置 于 3D 环境 中 。 

VRML 是 一 种 解释 性 语言 ， 这 可 以 看 做 是 它 的 一 个 劣势 ， 因 为 它 在 很 多 计算 机 上 的 运行 速度 
比较 慢 。 然 而 ， 它 确实 很 有 影响 力 ， 因 为 它 是 第 一 种 可 以 用 来 在 万 维 网 上 展现 3D 世界 的 方法 。 

严格 地 说 ，VRML 并 不 是 像 Premiere 或 Director 那样 的 工具 。 事 实 上 ， 创 建 VRML 内 容 唯一 
需要 的 软件 就 是 一 个 文本 编辑 器 。 不 管 如 何 ，VRML 是 用 来 在 Web 环境 中 创建 3D 环境 的 工具 ， 
就 像 Flash 是 用 来 创建 交互 式 影片 的 工具 一 样 。 

1， 历 史 

VRML 1.0 在 1995 年 5 月 发 布 ， 随 后 在 1996 年 1 月 又 发 布 了 修订 版 本 VRML 1.0C。VRML 
是 基于 Silicon Graphics 公司 开发 的 文件 发 明 者 格式 的 一 个 子 集 。VRML 1.0 支持 多 种 简单 3D 对 
象 的 创建 ， 如 立方 体 、 球 体 和 用 户 定义 的 多 边 形 等 。 还 可 以 为 对 象 指定 材料 和 纹理 使 之 更 为 逼真 。 

VRML 最 近 的 一 个 重要 的 修订 版 本 是 VRML 2.0， 这 个 版 本 增加 了 创建 交互 世界 的 能 力 。 
VRML 2.0 也 称 为 “运动 的 世界 ” 支持 在 交互 式 虚拟 世界 中 的 动画 和 声音 。 我 们 可 以 添加 新 的 对 
象 以 便 更 加 容易 地 创建 虚拟 世界 。VRML 中 引入 了 Java 和 Javascript， 以 支持 交互 式 对 象 和 用 户 
定义 的 动作 。VRML 2.0 相对 1.0 版 本 有 了 很 多 的 改变 ,它们 之 间 是 互 不 兼容 的 。 然 而 ， 我 们 可 以 
通过 某 些 方法 将 VRML 1.0 转化 为 VRML 2.0. 

VRML 2.0 作为 标准 被 提交 给 国际 标准 化 组 织 (ISO), 结果 产生 了 VRML 97。 实际 上 , VRML 
97 和 VRML 2.0 是 相同 的 ， 只 是 在 文档 方面 有 细微 的 变化 ， 并 增加 了 一 些 说 明 。VRML 97 是 
ISO/IEC 的 标准 。 

2. VRML 形状 

VRML 是 由 多 个 节点 组 成 的 层次 结构 ， 可 以 描述 由 一 个 或 多 个 对 象 构成 的 场景 。VRML 包含 
一 组 基本 的 几何 形状 ， 可 以 用 这 些 基 本 形状 构成 更 复杂 的 对 象 。shape 节点 是 VRML 中 所 有 对 
象 的 通用 节点 。Box、Cylinder、Cone 和 Sphere 都 是 几何 节点 ， 可 以 将 基本 对 象 放置 在 虚拟 
世界 中 。 

VRML 文 持 定义 包括 IndexedFaceSet Ñl Extrusion 在 内 的 复杂 形状 , IndexedFaceSet 
是 构成 对 象 的 一 组 表面 。 由 于 可 以 使 用 任意 数目 的 表面 ， 所 以 支持 创建 复杂 的 形状 。Extrusion 
是 一 个 沿 着 主轴 突出 的 2 维 截 面 ， 可 以 用 来 创建 像 花瓣 那样 的 简单 曲面 。 

对 象 的 形状 、 大 小 、 色 彩 和 反射 属性 可 以 在 VRML 中 规定 。Appearance 节点 控制 形状 的 
外 观 ， 并 可 以 包含 一 个 Material 节点 和 纹理 节点 。 图 2-28 显示 了 其 中 一 些 形 状 。 

Material 节点 规定 了 对 象 的 表面 属性 。 它 可 以 
通过 规定 对 象 的 红 、 绿 、 蓝 值 来 控制 对 象 的 颜色 。 反 
射 和 发 射 的 颜色 也 可 以 用 类 似 的 方法 来 定义 。 其 他 属 
性 〈 如 对 象 反射 直接 和 非 直接 光线 的 程度 ) 也 可 以 控 
制 。VRML 中 的 对 象 可 以 是 透明 或 部 分 透明 的 。 这 些 
也 包括 在 Material 节点 中 。 图 2-28 基本 的 VRML 形状 

有 三 类 纹理 节点 可 以 用 来 将 纹理 匹配 到 任意 对 
象 上 。 最 常用 的 是 ImageTexture， 它 可 以 使 用 外 部 的 JPEG 或 PNG 图 像 文件 并 将 其 匹配 到 形 
状 上 。 可 以 指定 为 对 象 匹配 纹理 的 方法 ， 即 图 像 倾斜 到 对 象 上 的 方法 是 可 编辑 的 。 

MovieTexture 节点 允许 将 MPEG 视频 匹配 到 对 象 上 ， 还 可 以 规定 起 始 和 结束 时 间 。 

最 终 的 纹理 匹配 节点 称 为 PixelTexture， 表示 使 用 ImageTexture 来 创建 一 个 图 像 。 尽 
管 其 效率 不 如 ImageTexture 节点 ， 但 对 于 简单 的 纹理 而 言 ， 它 仍然 是 很 有 用 的 。 
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文本 可 以 通过 Text 节点 加 入 到 VRML 中 。 你 可 以 规定 需要 加 入 的 文本 ， 以 及 文本 的 字体 、 
对 齐 方 式 以 及 大 小 等 。 在 默认 情况 下 ， 文 字 朝 着 Y 轴 的 正方 向 ， 或 者 说 “向 上 ”。 

所 有 的 形状 和 文本 都 在 VRML 世界 的 中 间 开 始 。 为 了 对 形状 进行 排列 ， 我 们 必须 使 用 
Transform 节点 来 包装 形状 节点 。Transform 节点 可 以 包括 Translation、Scale 和 
Rotation 节点 。Translation 将 对 象 从 它 的 当前 位 置 ( 默 认为 VRML 世界 的 中 心 ) 移动 一 段 
特定 的 距离 。scale 增加 或 缩小 对 象 的 大 小 ,Rotation ME 
对 象 绕 其 中 心 旋 转 。 

3. VRML 世界 

—A HUA TAMER ZS, RMR MAN 
摄像 机 以 及 背景 和 光照 。 默 认 的 摄像 机 与 乙 轴 的 负 方 向 对 齐 ， 
和 场景 的 中 心 相距 数 米 。 可 以 使 用 Viewpoint 节点 来 改变 默 
认 的 摄像 机 位 置 或 增加 新 的 摄像 机 。 图 2-29 显示 了 从 一 个 视角 
看 到 的 VRML 场景 。 

我 们 可 以 使 用 position 节点 来 指定 视角 ， 并 用 2-29 一 个 简单 的 VRML 场景 
orientation 节点 从 默认 视角 处 进行 旋转 。 摄 像 机 可 以 通过 
fieldofview 节点 来 改变 它 相 对 于 其 投影 区 域 的 角度 默认 值 为 0.78 弧度 )。 改 变 投 影 区 域 角度 
可 以 获得 从 远 处 拍摄 的 效果 。 

在 VRML 世界 中 ， 可 以 使 用 三 种 光照 类 型 。DirectionalLight 节点 用 于 在 整个 世界 中 沿 
着 某 一 方向 进行 照射 ， 这 和 太阳 光 比 较 相似 ， 太阳 光 来 自 一 个 方向 并 且 影 响 场 景 中 的 所 有 对 象 。 
PointLight 则 从 空间 一 个 国定 点 上 向 四 周 发 射 光线 。SpotLight 则 从 一 点 沿 着 一 个 方向 发 射 
光线 。 合 适 的 光照 对 于 增加 场景 逼真 度 是 非常 重要 的 。 对 于 任何 一 类 光照 ， 我 们 都 可 以 为 其 规定 
很 多 参数 ， 如 光照 的 色彩 和 亮度 。 

VRML 世界 的 背景 可 以 通过 Background 节点 来 指定 。 背 景 的 颜色 〈 默 认为 黑色 )， 以 及 天 
室 的 颜色 都 可 以 加 以 修改 。Panorama 节点 可 以 将 纹理 和 世界 的 侧面 进行 匹配 。 可 以 将 一 个 全 景 
覆盖 到 包围 VRML 世界 的 大 立方 体 上 。 如 果 我 们 使 用 全 景 ， 那 么 用 户 将 无 法 处 理 纹理 ， 因 为 用 户 
处 于 全 景 的 中 心 。 此 外 我 们 还 可 以 使 用 Fog 节点 来 为 VRML 增加 烟雾 的 效果 ， 用 户 可 以 指定 雾 
的 颜色 和 强度 。 雾 可 以 增加 世界 的 帧 率 ， 因 为 被 雾 覆盖 的 对 象 不 会 被 泻 染 。 


2.3.2 ”动画 和 交互 


VRML 97 与 最 初 的 VRML 1.0 相 比 ， 一 大 优势 是 VRML 世界 可 以 是 交互 性 的 。VRML 中 唯 
一 的 动画 方式 是 渐变 ， 这 可 以 通过 逐渐 改变 由 内 插 节点 规定 的 对 象 来 实现 。 这 个 节点 将 会 根据 其 
内 插 类 型 逐渐 改变 对 象 。 

内 插 类 型 有 5 种 ， 色彩、 坐标 、 普 通 、 方 向 、 位 置 和 标量 。 所 有 的 内 插 都 有 两 个 必须 指定 的 
节点 : key 和 key Value。key 由 两 个 或 多 个 数字 的 列表 组 成 ， 从 0 开始 到 1 结束 。 每 一 个 key 
元 素 必须 有 keyvalue 元 素 作为 补充 说 明 。Key 定义 了 动画 的 进度 ， 而 keyValue 则 定义 了 应 
改变 为 什么 值 。 例如 , 一 个 值 为 0.5 的 key 元 素 以 及 匹配 的 keyValue 定义 了 当 动 画 进行 到 一 半 
时 的 对 象 外 观 。 

TimeSensor 节点 为 动画 计时 ， 这 样 内 插 节 点 就 知道 对 象 应 该 处 于 什么 阶段 。TimeSensor 
E VRML 世界 中 并 没有 物理 形状 ， 只 是 起 到 计时 的 功能 。 为 了 通知 内 插 节 点 时 间 的 变化 ， 需 要 用 
ROUTE 连接 两 个 节点 。TimeSensor 和 内 插 节点 之 间 以 及 内 插 节 点 和 动画 对 象 之 间 各 需要 一 个 
ROUTE。 大 多 数 动画 都 是 通过 这 种 方法 完成 的 。 改 变 ROUTE 命令 ， 使 得 一 个 事件 能 够 触发 其 他 
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多 个 事件 可 以 获得 复杂 的 动画 效果 。 

为 了 获得 用 户 的 输入 ，VRML 中 使 用 两 种 类 型 的 传感器 。 第 一 种 为 环境 传感器 。 环 境 传感器 
有 三 种 节点 ; VisibilitySensor、ProximitySensor 和 Collision。 当 用 户 的 投影 区 域 
进入 一 个 不 可 见 的 盒子 时 ，VisibilitySensor 被 激活 。 当 用 户 进 入 或 离开 一 个 区 域 时 ， 
ProximitySensor 被 激活 。 当 用 户 装 上 节点 时 ，Col1lision 节点 被 激活 。 

第 二 类 传感器 称 为 指向 设备 传感器 。 一 种 指向 设备 传感器 是 触摸 传感器 ， 当 用 鼠标 激活 该 对 
象 时 激活 触摸 传感器 。 另 外 三 种 传感器 称 为 拖拉 传感器 。 这 些 传感器 支持 通过 鼠标 拖拉 来 旋转 球 
体 、 柱 体 和 平面 。 


2.3.3 VAML 规范 


VRML 文件 是 具有 .wr1 后 缀 的 文本 文件 。VRML 97 在 文件 的 第 一 行 必须 包 插 #VRML V2.0 
UTF8 语句 。# 在 文件 第 一 行 之 外 的 其 他 位 置 表示 注释 。VRML 文件 的 第 一 行 告诉 VRML 客户 端 
所 使 用 的 VRML 版 本 。VRML 的 节点 是 区 分 大 小 写 的 ， 通 常 采用 层次 的 形式 构造 。 

尽管 简单 的 文本 编辑 器 〈 如 记事 本 ) 就 可 以 用 来 处 理 VRML 文件 ， 但 仍然 有 一 些 VRML 专 
用 的 编辑 器 ， 如 VRMLpPad。 它 们 可 以 通过 提供 不 同 的 色彩 和 折 和 三 (或 是 扩展 ) 节点 来 帮助 我 们 创 
建 VRML WR. 

所 有 的 节点 都 用 “{” 开 头 ， 用 “}?” 结 尾 ， 节 点 之 间 可 以 嵌 套 包含 。 名 为 组 节点 的 特殊 节点 
可 以 聚集 多 个 节点 。 关 键 字 children 以 及 其 后 的 “f” 作 为 子 节点 的 开头 ， 并 由 “]” 结 尾 。 
Transform 节点 就 是 一 个 组 节点 。 

可 以 用 DEF 来 定义 节点 ， 用 USE 来 重用 节点 。 而 且 ， 可 以 应 用 多 个 简单 对 象 创建 复杂 对 象 。 

下 面 的 语句 在 VRML 中 创建 一 个 简单 的 盒子 : 


Shape { 
Geometry Box{} 


盒子 默认 为 位 于 屏幕 中 央 的 两 米 长 的 立方 体 。 将 它 放 入 Transform 节点 可 以 使 这 个 盒子 移 
动 到 场景 中 的 不 同位 置 。 我 们 也 可 以 给 盒子 赋予 不 同 的 颜色 ， 如 红色 : 


Transform { translation 0 10 0 children [ 
Shape { 
Geometry Box{} 
appearance Appearance { 
material Material { 
diffuseColor 1 0 0 
) } 
} 、 
]} 4 o: 7 ' 
这 个 VRML 片段 将 一 个 红色 的 盒子 放置 于 +10Y 的 方向 。 如 果 DEF mybox 在 transform 
的 前 面 ， 那 么 这 个 盒子 就 可 以 重用 。 现 在 ， 当 盒子 需要 再 次 被 使 用 时 ， 只 需要 使 用 USE mybox 


就 可 以 得 到 它 的 拷贝 。 
2.4 进一步 探索 

要 初步 了 解 多 媒体 编著 ， 可 以 参考 [3，1] 和 [4 中 的 第 5~8 章 。 而 自动 编著 的 详细 介绍 可 以 参 
考 [7]。 

本 书 的 网 站 中 第 2 BEA) Further Exploration Ut T HE, T 可 以 获得 有 关 多 媒体 编著 的 一 个 完整 
的 FAQ 文件 。 . 

图 2-5 显示 的 用 来 研究 互补 色 的 TextColor .exe 程序 也 可 以 在 本 书 的 网 站 上 获得 。 
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本 书 网 站 包括 了 关于 Director 的 FAQ 的 链接 。 展 示 2.2.2 节 主 要 思想 的 一 个 Director 影片 也 
可 以 从 网 站 中 下 载 ， 此 外 还 有 关于 Dreamweaver 和 VRML 的 信息 ， 以 及 VRML 的 一 个 小 demo. 


2.5 练习 


1. 多 媒体 还 擅长 表达 哪 类 附加 信息 ? 

(a) 有 什么 内 容 是 口头 文本 可 以 表达 而 书面 文本 不 能 表达 的 ? 
(b) 在 什么 情况 下 书面 文本 比 口头 文本 更 为 理想 ? 

2， 在 你 的 实验 室 中 找到 并 学 习 3D Studio Max。 阅 读 在 线 教 程 ， 掌 握 软件 的 3D 建 模 技术 。 学 习 
如 何 使 用 它 进行 纹理 匹配 和 制作 动画 。 最 后 制作 一 个 3D 模型 。 

3， 用 Dreamweaver 设计 一 个 交互 式 网 页 。HTML 4 中 提供 了 类 似 Adobe Photoshop 中 的 层 的 功 
能 。 每 一 层 表 示 一 个 HTML 对 象 ， 如 文本 、 图 像 或 一 个 简单 的 HTML 网 页 。 在 Dreamweaver 
中 ， 每 一 层 都 有 一 个 与 该 层 相 关 的 符号 。 所 以 ， 选 中 符号 就 可 以 选中 整个 层 ， 然 后 就 可 以 进 
行进 一 步 的 处 理 。 在 Flash 中 ， 你 可 以 添加 按钮 和 行为 以 便 进行 浏览 和 控制 。 你 还 可 以 使 用 时 
间 轴 行为 来 创建 动画 。 

4. 考虑 自动 编著 ， 回 答 以 下 问题 : 

(a) 你 认为 “活动 图 像 ”的 含义 是 什么 ? 
(b) 如 果 将 基于 文本 的 技术 移植 到 基于 图 像 的 自动 编著 中 ， 可 能 产生 什么 问题 ? 
Co) 使 用 现 有 的 文本 文档 进行 自动 编著 的 最 主要 问题 是 什么 ? 

5， 假 设 我 们 希望 创建 一 个 简单 的 动画 ， 如 图 2-30 所 示 。 注 意 ， 这 幅 图 像 是 动画 在 某 一 时 刻 的 

静态 画面 ， 并 非 表 示 动 画 是 鱼 的 移动 过 程 ， 在 鱼 的 移动 过 程 中 它 是 重复 的 。 说 明 为 了 实现 这 
个 目的 我 们 需要 做 什么 ， 并 给 出 解决 这 个 问题 的 伪 代 码 。 

假设 我 们 已 经 有 了 一 组 表示 鱼 的 路 径 的 坐标 (x，y)， 我 们 可 以 调用 一 个 过 程 来 将 图 像 定 位 在 

路 径 位 置 上 ， 并 且 运 动 是 在 视频 的 顶部 发 生 。 

6. 对 于 图 2-11 中 的 滑动 切换 ， 解 释 我 们 如 何 得 到 非 运动 的 右边 的 视频 Re 中 x 的 表达 式 。 

7. 假设 我 们 希望 实现 一 种 视频 切换 方式 ， 第 二 段 视频 将 第 一 段 视 频 覆 盖 ， 并 通过 一 个 开放 的 圆 
圈 慢 慢 显 现 (类似 于 相机 的 光圈 )， 如 图 2-31 所 示 。 写 出 公式 ， 从 两 段 视 频 中 获得 正确 的 像素 
点 以 实现 这 种 功能 。 只 需 写 出 红色 通道 的 答案 即 可 。 





h: a) 光圈 打开 b) 稍 后 


图 2-30 分 镜 ， 渐 渐 占据 更 多 的 空间 图 2-31 虹膜 擦拭 


8. 现在 假设 我 们 希望 实现 一 种 视频 切换 方式 ， 第 二 段 视频 仍 将 第 一 段 视频 覆盖 ， 并 通过 一 条 运 
动 的 半径 慢 慢 显现 (如 钟表 的 指针 )， 如 图 2-32 所 示 。 写 出 公式 ， 从 两 段 视频 中 获得 正确 的 像 
素 点 以 实现 这 种 功能 。 只 需 写 出 红色 通道 的 答案 即 可 。 


9. 
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假设 你 希望 实现 一 种 波动 的 效果 ， 如 图 2-33 所 示 。 用 与 x 有 一 定 偏 移 处 的 值 来 代替 x 处 的 值 


就 可 以 得 到 这 种 效果 。 假 设 图 像 的 大 小 为 160 行 x120 列 。 





4 


b) 稍 后 
图 2-32 ”钟表 掠 过 图 2-33 ”视频 中 的 滤 镜 


(a) 使 用 浮 点 运算 在 像素 点 x 的 值 上 增加 一 个 正弦 分 量 ， 使 得 x 的 RGB 值 等 于 原 图 中 另 一 个 
像素 点 的 值 。x 的 最 大 切换 值 是 16。 

(b) 在 Premiere 以 及 其 他 软件 包 中 ， 只 提供 了 整数 运算 。 像 正弦 这 样 的 函数 都 要 重新 定义 ， 
它 只 接受 整数 形式 的 参数 并 且 返 回 整数 形式 的 值 。sin 函数 的 参数 值 必须 是 0~1024, 而 其 值 
域 为 -512~512, Bl sin (0) 返回 0, sin (256) 返回 512, sin (512) 返回 0, sin (768) 
返回 -512，sin (1024) 返回 0。 

HF a) 的 问题 ， 使 用 整数 运算 重 写 表 达 式 。 
(c) 如 果 要 使 波动 与 时 间 相 关 ， 如 何 修改 答案 ? 





"4 
a) 钟表 的 指针 正在 掠 过 


10. 如 何 创建 图 2-6 所 示 的 图 像 ? 编写 一 个 小 程序 用 以 创建 这 样 的 图 像 。 提 示 : 将 R、G、B 分 别 
放置 在 圆 的 内 接 等 边 三 角形 的 顶点 上 。 最 好 能 对 输出 对 象 的 行 和 列 进行 检查 ， 而 非 简单 地 将 
结果 按照 Cx, y) 的 位 置 进 行 匹 配 。 

11. 为 了 学 习 如 何 使 用 现 有 的 软件 对 图 像 、 视 频 和 音乐 进行 操作 ， 制 作 一 段 时 长 1 分 钟 的 数字 视 
频 。 通 过 这 个 练习 ， 你 将 熟悉 如 何 使 用 基于 PC 的 设备 以 及 Adobe Premiere、Photoshop、 
Cakewalk Pro Audio 等 多 媒体 软件 。 

Ca) 捕获 (或 寻找 ) 至 少 三 个 视频 文件 。 你 可 以 使 用 摄像 机 或 VCR 制作 自己 的 (使 用 Premiere 
或 类 似 软件 ) 视频 文件 或 在 网 上 搜寻 。 

(b) 使 用 Cakewalk Pro Audio 创作 (或 编辑 ) 一 个 小 的 MIDI 文件 。 

(c) 创建 (或 寻找 ) 至 少 一 个 WAV 文件 。 你 可 以 自己 创作 或 从 网 上 下 载 。 

(d) 使 用 Photoshop 创建 一 个 标题 和 一 个 结尾 。 

Ce) 将 上 面 各 步 的 结果 组 合 起 来 ， 创 作 一 段 60 秒 左右 的 影片 ， 包 括 标题 、 创 作 人 员 、 配 乐 和 
至 少 三 处 切换 。 试 验 不 同 的 压缩 方法 ， 最 终 版 本 最 好 使 用 MPEG. 

Cf) 以 上 部 分 构成 了 实验 的 最 基本 部 分 。 你 可 以 进一步 地 改进 你 的 作品 ， 不 过 千 万 不 要 因此 
而 废 寝 态 食 啊 ! 
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第 3 章 图 形 和 图 像 的 数据 表现 


在 本 章 中 ,我 们 将 介绍 图 像 ， 先 介绍 1 位 图 像 ， 然 后 介绍 8 位 灰 度 图 像 ， 以 及 怎样 绘制 它们 ， 
接着 介绍 24 位 彩色 图 和 8 位 彩色 图 。 此 外 ， 还 会 讨论 一 些 用 于 存储 这 种 图 像 的 文件 格式 的 细节 。 

我 们 将 涉及 如 下 主题 : 

。 图形 /图 像 的 数据 类 型 。 

。 常 用 的 文件 格式 。 


3.1 图 形 /图 像 的 数据 类 型 


用 于 多 媒体 的 文件 格式 的 数量 不 断 增长 [1]。 比 如 ， 表 3-1 显示 了 Macromedia Director 中 可 以 
使 用 的 文件 格式 的 列表 。 在 本 书 中 ， 我 们 将 只 介绍 一 部 分 常用 的 文件 格式 ， 并 能 解释 它们 怎样 工 
作 。 我 们 将 重点 关注 GIF 和 IPG 文件 格式 ， 因 为 这 两 种 文件 格式 能 够 被 多 数 Web 浏览 器 解压 缩 
和 显示 。 

首先 ， 我 们 将 从 总 体 上 讨论 文件 格式 的 特性 。 


表 3-1 Macromedia Director 的 文件 格式 

















3.1.1 1 位 图 像 

图 像 由 像素 (pixel) 组 成 ， 像 素 是 数字 图 像 中 的 图 片 元 素 。 一 幅 1 位 图 像 仅 仅 由 “ 开 ” 位 和 
“ 关 ” 位 组 成 ， 这 就 是 最 简单 的 图 像 格式 。 图 像 的 每 个 像素 作为 一 个 位 存储 (0 或 者 是 1)。 因 此 ， 
这 样 一 幅 图 像 称 为 二 值 图 像 (binary image). 

二 值 图 像 也 称 为 1 位 单 色 (monochrome) 图 像 ， 因 为 它 不 包含 
其 他 颜色 。 图 3-1 显示 了 一 幅 1 位 单 色 图 像 〈 多 媒体 科学 家 称 为 
“Lena”， 这 是 一 幅 标准 图 像 ， 用 来 说 明 许 多 算法 )。 一 幅 分 辨 率 为 
640x480 的 单 色 图 像 需要 38.4KB (EH 640x480/8) 的 存储 空间 。1 位 
单 色 图 像 适用 于 仅 含 有 简单 图 形 和 文本 的 图 片 。 


3.1.2 ”8 位 灰 度 图 像 图 3-1 单 色 1 位 Lena 图 像 


现在 来 考虑 8 位 图 像 ， 即 图 像 的 每 个 像素 有 一 个 在 0~255 之 间 的 灰 度 值 〈gray value)。 每 个 像 


素 由 一 个 字 节 表示 。 例 如 , 一 个 暗 的 像素 可 能 具有 灰 度 值 10, 而 一 个 亮 的 像素 可 能 具有 灰 度 值 230。 
整 幅 图 像 可 以 看 作 由 像素 值 组 成 的 二 维 数组 。 我 们 称 这 样 一 个 二 维 数组 为 一 幅 位 图 (bitmap ), 
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即 图 形 /图 像 的 数据 表现 。 它 与 图 形 /图 像 在 视频 内 存 中 的 存储 方法 类 似 。 

图 像 分 辨 率 〈image resolution) 指 的 是 数字 图 像 中 的 像素 数目 分辨 率 越 高 则 图 像 质量 越 
好 )。 对 一 幅 图 像 ， 非 常 高 的 分 辩 率 可 能 是 1600x1200， 而 低 一 点 的 分 辨 率 可 能 是 640x480. 注 
意 ， 这 里 我 们 用 的 屏幕 长 宽 比 是 4:3。 我 们 不 是 一 定 非 要 用 这 个 比例 ， 但 是 用 这 个 比例 看 起 来 
更 自然 。 

这 样 的 二 维 数组 必须 存储 在 硬件 中 ， 我 们 称 这 样 的 硬件 设备 为 帧 缓存 Crame buffer). 被 称 
为 “视频 ” 卡 〈 实 际 上 是 图 形 卡 ) 的 专门 的 硬件 设备 〈 相 对 较 昂贵 ) 就 是 用 于 这 个 目的 。 视 频 卡 
的 分 辩 率 不 必 达 到 图 像 所 要 求 的 分 辨 率 ， 但 是 如 果 视 频 卡 没有 足够 的 存储 空间 ， 为 了 显示 ， 数 据 
就 不 得 不 在 RAM 中 移动 。 

我 们 可 以 把 8 位 图 像 看 作 一 组 1 位 位 平面 (bitplane)， 其 中 每 个 平面 由 图 像 的 1 位 表示 组 成 ， 
而 平面 的 “海拔 ”不 断 升 高 ， 即 如 果 图 像 的 像素 在 某 个 位 的 值 不 为 0， 则 这 个 位 被 置 为 1。 

图 3-2 用 图 显示 了 位 平面 的 概念 。 每 个 位 平面 的 每 个 像素 具有 0 或 1 值 。 但 是 ， 所 有 的 位 平 
面 的 对 应 像素 的 位 组 成 一 个 字 节 ， 用 来 存储 0~255 间 (8 位 情形 下 ) 的 某 个 值 。 对 于 影响 最 小 的 
位 ， 在 二 进 制 数 的 最 终 数字 和 中 ， 该 位 的 值 变 为 0 或 者 1。 位 置 算法 隐 含 着 对 于 下 一 个 〈 即 第 二 
个 ) 位 ， 该 位 的 0 或 1 对 最 终 和 的 贡献 是 0 或 2。 依 次 下 去 的 位 代表 0 或 4， 0 或 8， 等 等 ， 直 到 
影响 最 大 的 位 贡献 值 为 0 或 128。 视 频 卡 能 够 以 视频 速率 刷新 位 平面 的 数据 ， 但 是 不 像 RAM 那 
样 能 很 好 的 保持 数据 。 在 北美 ， 光 棚 场 以 每 秒 60 个 周期 的 速度 刷新 。 

每 个 像素 通常 用 一 个 字 节 存储 〈 值 从 0~255)， 所 以 一 幅 640x480 的 灰 度 图 需要 300KB 的 存 
储 空 间 (640x480=307 200)。 图 3-3 再 次 显示 了 Lena 图 像 ， 这 次 是 一 幅 灰 度 图 。 

如 果 我 们 想 打 印 (print) 这 样 一 幅 图 ， 那 么 事情 将 变 得 复杂 一 些 。 假设 我 们 有 一 个 600dpi 的 
激光 打印 机 。 这 样 的 设备 通常 只 能 打印 一 个 点 或 者 不 打印 一 个 点 。 然 而 ， 将 一 幅 600x600 的 图 像 
打印 在 一 平方 英寸 的 空间 内 ， 其 结果 就 不 能 令 人 十 分 满意 。 此 时 采用 抖动 (dithering， 也 被 称 为 
FE) 方法 。 它 的 基本 策略 是 以 亮度 分 辨 率 换取 空间 分 辨 率 。 〈 见 [2] 的 568 页 ， 该 书 对 抖动 有 更 
好 的 讨论 。) 

平面 7 
平面 0 


me el 





gem 


图 3-2 8 位 灰 度 图 像 的 位 平面 3-3 Lena KER 

抖动 

对 于 在 1 位 打印 机 上 的 打印 来 说 ， 用 抖动 来 计算 出 更 大 模式 的 点 ， 这 样 ，0~255 之 间 的 值 就 
与 能 够 正确 表现 明暗 的 像素 值 的 模式 相对 应 。 主要 的 策略 是 用 一 个 更 大 的 模式 (例如 2x2 或 4x4) 
替代 一 个 像素 值 ， 这 样 ， 被 打印 点 的 数量 近似 于 用 在 网 板 打印 (halftone printing) 的 油墨 的 变化 
大 小 的 圆 盘 字 模式 。 网 板 打 印 是 一 种 用 于 报纸 印刷 的 模拟 过 程 ， 用 或 小 或 大 的 黑 油 墨 实 心 圆 来 表 
现 阴 影 。 

如 果 我 们 用 nxn 的 开关 1 位 点 矩阵 来 代替 ， 我 们 就 能 表现 nl 级 亮度 分 辩 率 。 比 如 ， 和 矩阵 中 
任意 三 点 被 打印 成 黑色 可 算 作 一 个 亮度 级 。 点 模式 用 试探 法 创建 。 比 如 ， 我 们 用 一 个 2x2 Hy “p 
ON FE BE”: 


B3 Ë AURPRRORBARD 43 


0 2 
ls 
我 们 可 以 先 用 除数 是 256/5 的 整数 除法 把 0~255 间 的 图 像 的 值 映射 到 一 个 新 的 范围 0~4。 接 
下 来 ， 比 如 ， 如 果 像 素 值 是 0， 那 么 在 打印 机 的 一 个 2x2 输出 区 域 不 进行 打印 ;但 如 果 像 素 值 是 
4， 则 我 们 在 4 个 点 都 填 涂 。 所 以 规则 如 下 : 
如 果 像 素 亮度 比 抖动 矩阵 的 某 个 元 素 的 编号 大 ， 则 在 该 元 素 点 填 涂 ， 即 用 一 个 nxn 4 RE 
替代 每 个 像素 。 
然而 ， 我 们 注意 到 上 述 这 种 打印 方式 的 亮度 级 数量 还 太 小 。 而 如 果 我 们 通过 增加 拌 动 矩阵 的 
大 小 来 增加 亮度 级 数量 ， 我 们 也 会 增加 输出 图 像 的 大 小 。 这 就 降低 了 图 像 在 任何 局 部 的 清晰 度 ， 
从 而 降低 了 图 像 的 空间 分 辨 率 。 
注意 ， 对 于 一 个 经 抖动 方法 处 理 的 图 像 ， 其 尺寸 可 能 太 大 ， 因 为 就 算 用 4x4 矩阵 替代 每 个 像 
素 点 ， 也 会 使 图 像 变 为 原来 的 16 倍 。 然 而 ， 利 用 “有 序 抖 动 ” 的 方法 可 以 解决 这 个 问题 。 假 设 
我 们 希望 用 一 个 更 大 的 4x4 的 抖动 矩阵 ， 如 
O 8 2.10 
12 4 14 6 
S ol 1 9 
is 7 i 3 


然后 假设 我 们 把 这 个 抖动 矩阵 在 同一 刻 移 动 到 图 像 在 水 平和 垂直 方向 的 四 个 像素 上 (这 里 的 
图 像 值 已 经 被 降低 到 0~16 这 个 区 间 中 )。 如 果 某 个 像素 的 亮度 值 大 于 覆盖 它 的 矩阵 元 素 的 编号 ， 
则 在 打印 机 的 相应 元 素 输出 位 填 涂 。 图 3-4a 显示 了 Lena 的 灰 度 图 。 有 序 抖动 版 本 在 图 3-4b 中 显 
示 ， 其 中 Lena 右 眼 的 详细 情况 在 3-4c 中 显示 。 





a 4 g = tty ra . 
a) 8 位 灰 度 图 像 lenagray .bmp b) 该 图 像 的 抖动 版 本 c) 抖动 版 本 的 细节 


图 3-4 KERRE 
一 个 使 用 nxn 抖动 矩阵 的 用 于 有 序 抖动 的 算法 如 下 : 


算法 3-1 有 序 抖动 


begin 


for x = 0 to Xmax // columns 
for y = 0 to Ymax // tows 
i=xmodn 
j=ymodn 


// I(x, y) is the input, O(x, y) is the output, D is the dither matrix. 
if I(x, y) > D(i, j) 
O@, y) = 1; 


end 
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Foley 等 的 著作 [2] 对 有 序 抖动 进行 了 更 详细 的 介绍 。 
3.1.3 图 像 数据 类 型 


本 节 介 绍 图 形 和 图 像 文件 格式 的 一 些 最 常见 的 数据 类 型 : 24 位 色 和 8 位 色 。 然 后 我 们 将 讨论 
文件 格式 。 一 些 文件 格式 只 能 用 于 特殊 的 硬件 和 操作 系统 平台 ， 而 另 一 些 格式 是 平台 无 关 
(platform-independent) 或 者 说 是 跨 平台 (cross-platform) 的 文件 格式 。 即 使 有 些 格式 不 是 跨 平台 
的 ， 但 转换 程序 能 识别 这 些 格式 并 将 其 转换 成 其 他 格式 。 

由 于 图 像 文 件 需 要 较 大 的 存储 空间 ， 因 此 大 多 数 图 像 格 式 都 结合 了 某 种 压缩 (compression) 
技术 。 压 缩 技 术 可 划分 为 无 损 〈lossless) 压缩 和 有 损 Clossy) 压缩 。 我 们 将 在 第 7 章 ~ 第 14 章 学 
习 各 种 图 像 、 视 频 和 音频 压缩 技术 。 


3.1.4 24 位 彩色 图 像 


在 一 个 24 位 彩色 图 像 中 ， 每 个 像素 用 三 个 字 节 表 示 ， 通 常 表示 为 RGB 。 因 为 每 个 值 的 范围 
是 0~255， 这 种 格式 支持 256x256x256 (总 共 16 777 216) 种 可 能 的 颜色 组 合 。 然 而 ， 这 种 灵活 性 
会 导致 存储 问题 。 例 如 ， 一 幅 640x480 的 24 位 彩色 图 像 如 果 不 经 压缩 ， 需 要 921.6KB 的 存储 空间 。 
要 注意 的 一 个 重要 问题 是 ， 许 多 24 位 彩色 图 像 通常 存储 为 32 位 图 像 ， 每 个 像素 多 余 的 数据 
字 节 存储 一 个 wx (alpha) 值 来 表现 有 特殊 影响 的 信息 。( 见 [2] 的 835 页 ， 介 绍 使 用 c 通道 在 图 形 
图 像 中 合成 一 些 重 簿 物体 。 最 简单 的 使 用 就 是 用 来 作为 一 个 透明 标签 。) 
图 3-5 显示 了 图 像 forestfire.bmp, 一 幅 用 Microsoft Windows BMP 格式 (本章 后 面部 分 
讨论 ) 显示 的 24 位 图 像 。 这 幅 图 像 的 红 、 绿 、 蓝 通道 的 灰 度 图 分 别 在 3-5b、3-5c、3-5d 中 显示 。 
每 个 颜色 通道 的 0~255 的 字 节 值 表示 亮度 ， 我 们 就 能 够 用 每 种 颜色 分 别 显示 灰 度 图 。 





a) 24 位 彩色 图 像 forestfire.bmp b) 图 像 的 R 颜色 通道 


”mes P ee 
k ie WA fey 





c) 图 像 的 G 颜色 通道 d) 图 像 的 B 颜色 通道 
图 3-5 ”高 分 辨 率 的 彩色 图 像 和 单独 的 R、G、B 颜色 通道 图 像 。( 彩 色 插 页 中 也 有 此 图 ) 


3.1.5 8 位 彩色 图 像 


如 果 空 间 相 关 《〈 实 际 上 几乎 总 是 这 样 )， 通 过 量化 颜色 信息 就 可 以 得 到 足够 精确 的 彩色 图 像 。 
许多 系统 只 能 够 利用 8 位 颜色 信息 (也 称 作 256 色 ) 来 生成 屏幕 图 像 。 即 使 有 些 系 统 有 能 真正 使 
用 24 位 颜色 信息 的 电路 ， 向 后 兼容 的 特性 也 要 求 我 们 能 理解 8 位 彩色 图 像 文件 。 
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这 样 的 图 像 文件 使 用 了 查找 表 (lookup table) 概念 来 存储 颜色 信息 。 基 本 上 ， 图 像 存储 的 不 
是 颜色 而 仅仅 是 字 节 的 集合 ， 每 个 字 节 是 指向 一 个 表 的 索引 。 该 表 表 项 具有 三 字 节 值 ， 指 明了 像 
素 〈 带 有 查找 表 索 引 ) 的 颜色 。 从 某 种 程度 上 讲 ， 它 有 点 像 小 孩 的 按 序号 画图 的 绘画 册 ， 数 字 1 
可 能 代表 橙色 ， 数 字 2 代表 绿色 等 一 -真正 的 颜色 集 不 一 定 是 这 个 模式 。 

仔细 选择 在 一 幅 图 中 使 用 哪些 颜色 具有 最 佳 表 现 力 是 有 意义 的 ; 如 果 一 幅 图 像 描 绘 的 是 日 落 
场景 ， 那 么 精确 地 表现 红色 而 仅 存 储 少量 的 绿色 是 合理 的 。 

假设 一 个 24 位 图 像 中 所 有 的 颜色 都 放 在 一 个 256x256x256 的 格子 集 里 ， 同 时 格子 中 ， 还 要 
存储 每 种 颜色 对 应 的 像素 数目 。 比 如 ， 如 果 23 个 像素 具有 RGB fH (45, 200, 91), AAI 23 
存储 在 一 个 三 维 数组 中 ， 元 素 下 标 值 为 [45，200，91]。 这 种 数据 结构 被 称 为 颜色 直方 图 (color 
histogram)。( 见 [3][4]。) 

图 3-6 显示 了 forestfire.bmp 中 像素 的 RGB 值 的 三 维 直 方 图 。 直 方 图 有 16x16x16 个 小 
格 ， 并 用 亮度 和 伪 彩 色 的 形式 显示 了 每 个 小 格 中 的 像素 数目 。 我 们 能 够 看 到 一 些 颜色 信息 的 重要 


的 聚 类 ， 对 应 forestfire 图 像 的 红色 、 绿 色 、 黄 色 等 。 这 样 的 聚 类 方法 让 我 们 能 够 选 出 最 重 
要 的 256 种 颜色 。 
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图 3-6 在 forestfire.bmp 中 的 RGB 色彩 的 三 维 直方 图 
基本 上 ， 三 维 直方 图 小 格 中 的 大 数据 量 能 够 由 分 ORR GES 
割 -合并 (split-and-merge) 算法 解决 , 以 选取 最 好 的 256 (ga ge 
种 颜色 。 图 3-7 显示 了 作为 结果 的 GIF 格式 (本 章 后 面 
部 分 讨论 ) 的 8 位 图 像 。 注 意 ， 很 难 区 分 图 3-5a 显示 
的 24 位 图 像 和 图 3-7 显示 的 8 位 图 像 的 差别 。 但 情况 
并 不 总 是 这 样 。 考 虑 一 下 医学 图 像 的 情况 : 你 是 否 对 仅 
仅 是 “合理 精确 ”的 用 于 激光 外 科 的 你 的 大 脑 图 像 满 意 
WE? 可 能 不 会 吧 。 那 就 是 为 什么 要 考虑 在 医学 应 用 中 使 图 3-7 8 位 彩色 图 像 的 例子 
用 64 位 图 像 的 原因 。 (彩色 插 面 中 也 有 此 图 ) 
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请 注意 ，8 位 图 像 比 24 位 图 像 大 大 节省 空间 ， 一 个 640x480 的 8 位 彩色 图 像 只 需要 300KB 
的 容量 ， 而 真 彩色 图 像 就 需要 921.6KB 的 空间 〈 在 没 用 任何 压缩 的 情况 下 )。 


3.1.6 MEERE 


回顾 一 下 , 在 8 位 彩色 图 像 使 用 的 理念 是 仅仅 为 每 个 像素 存储 下 标 , 或 者 说 是 编号 值 。 BA, 
如 果 一 个 像素 存储 的 值 是 25， 意 为 在 颜色 查找 表 (Lookup Table, LUT) 中 找到 第 25 行 。 因 为 图 
像 用 二 维 数组 值 显示 ， 故 它们 通常 按照 行 - 列 顺序 存储 为 一 长 串 的 值 。 对 一 幅 8 位 图 像 ， 图 像 文 
件 可 以 在 文件 头 信息 中 存储 每 个 下 标 对 应 的 8 位 RGB fh. 图 3-8 显示 了 这 种 方法 。 颜色 查找 表 通 
常 被 称 为 调 色 板 (palette). 
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图 3-8 8 位 彩色 图 的 颜色 查找 表 


一 个 颜色 选择 器 〈color picker) 由 比较 大 的 颜色 块 〈 或 者 说 是 断 续 的 颜色 区 间 ) 的 数组 组 成 ， 
这 样 鼠标 点 击 就 能 够 选中 指向 的 颜色 。 实 际 上 ， 一 个 颜色 选择 器 显示 其 下 标 值 为 0~255 的 调 色 板 
颜色 。 图 3-9 显示 了 颜色 选择 器 的 概念 。 如 果 用 户 选择 了 下 标 值 为 2 的 颜色 块 ， 那 么 该 颜色 为 青 
色 ，RGB 值 为 (0，255，255)。 
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255 
图 3-9 8 位 颜色 的 颜色 选择 器 ， 颜色 选 择 器 的 每 一 块 对 应 颜色 查找 表 的 每 行 


通过 修改 颜色 表 就 可 能 制作 简单 的 动画 ， 这 称 为 色彩 循环 (color cycling) 或 调 色 板 动画 
(palette animation)。 因 为 从 颜色 表 更 新 非常 快 ， 这 样 会 获得 简单 但 令 人 满意 的 效果 。 

拌 动 技术 同样 可 以 用 来 进行 彩色 打印 。 每 个 颜色 通道 用 1 位 ， 同 时 用 RGB 点 把 颜色 隔 开 。 
作为 选择 ， 如 果 打 印 机 或 者 屏幕 只 能 打印 有 限 数量 的 颜色 ， 比 如 用 8 位 而 不 是 24 位 ， 那 么 即使 
在 颜色 查找 表 中 无 法 找到 的 颜色 也 是 可 以 打印 的 。 通 过 平均 相 邻 像素 点 的 亮度 ， 显 示 的 颜色 分 状 
率 可 以 明显 增加 而 不 用 降低 空间 分 辨 率 。 那 么 ， 我 们 就 能 欺骗 眼睛 ， 让 它 感觉 能 看 到 不 可 获得 的 
颜色 ， 因 为 采用 了 空间 混 色 。 图 3-10a 显示 了 一 幅 24 位 彩色 Lena 图 像 ， 图 3-10b 显示 了 同一 幅 
图 通过 抖动 技术 减少 到 5 位 的 情况 ， 图 3-10c 显示 了 左 眼 的 细节 。 

怎样 设计 颜色 查找 表 

在 3.1.5 FF, RMB TR (clustering) 的 思想 ， 用 来 从 一 幅 24 位 彩色 图 像 中 产生 
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最 重要 的 256 色 。 但 是 一 般 说 来 ， 聚 类 是 代价 昂贵 又 费时 的 办 法 。 但 我 们 的 确 需 要 设计 颜色 查找 
表 ， 那 么 应 该 怎样 做 呢 ? 





b) 带 颜 色 抖动 的 版 本 c) 拌 动 版 本 的 细节 
图 3-10 


最 直接 的 方法 是 在 每 一 维 把 RGB 立方 体 分 成 大 小 相等 的 块 ， 然 后 将 每 个 结果 立方 体 中 央 的 
颜色 作为 颜色 查找 表 的 表 项 , 只 需要 把 RGB 从 0~255 区 间 变 为 合适 的 区 间 就 可 以 产生 8 位 编号 。 

因为 比 起 蓝 色 ， 人 类 对 红色 、 绿 色 更 敏感 ， 所 以 我 们 可 以 将 红色 和 绿色 的 范围 从 0~255 缩小 
到 3 位 (0~7)， 而 蓝 色 的 范围 缩小 到 2 位 (0~3， 总 共 8 位 )。 为 了 缩小 红色 和 绿色 区 间 ， 我 们 只 
需要 用 32 (256/8) 除 红色 或 是 绿色 的 字 节 值 ， 并 截取 结果 的 小 数 部 分 。 这 样 图 像 中 每 个 像素 用 8 
位 下 标 代替 ， 而 颜色 查找 表 提 供 了 24 位 颜色 。 

然而 ， 应 用 这 种 简单 方案 的 后 果 是 图 像 中 会 出 现 边 缘 效果 。 因 为 如 果 RGB 中 的 轻微 变化 会 
导致 移动 到 一 个 新 的 编号 ， 边 缘 就 出 现 了 ， 这 看 起 来 令 人 很 不 舒服 。 

解决 这 种 色彩 减退 问题 的 一 个 简单 办 法 是 采用 中 值 区 分 算法 (median-cut algorithm), 一些 其 
他 方法 也 具有 同样 的 效果 或 者 是 更 好 的 效果 。 这 种 方法 从 计算 机 图 形 学 [5] 衍 生 而 来 这里， 我 们 
仅 介 绍 一 个 相当 精简 的 版 本 。 这 个 方法 是 自 适 应 分 区 方案 的 一 种 ， 它 试图 表达 最 多 的 位 ， 具 有 最 
强 的 识别 能 力 ， 而 颜色 是 最 聚集 的 。 

该 算法 思想 是 将 红色 字 节 的 值 排序 ， 并 找到 其 中 值 。 然 后 ， 比 中 值 小 的 值 被 标记 为 0 位 ， 比 
中 值 大 的 值 被 标记 为 1 位 。 中 值 是 一 半 像 素 值 比 其 小 ， 一 半 像 素 值 比 其 大 的 点 。 

假设 我 们 把 一 些 苹果 画 成 图 , 大 多 数 像素 都 是 红色 的 , 那么 红色 字 节 值 的 中 值 可 能 落 在 0~255 
范围 内 的 较 高 部 分 。 下 一 步 , 我 们 仅仅 考虑 第 一 步 后 被 标记 为 0 的 像素 ,并 将 它们 的 绿色 值 排序 。 
接着 ,我 们 用 另 一 位 标记 图 像 像素 , 0 标记 绿色 中 那些 比 中 值 小 的 像素 , 1 标记 那些 比 中 值 大 的 像素 。 
然后 ， 把 同样 的 规则 用 于 第 一 步 后 被 标记 为 1 的 像素 ， 这 样 我 们 给 所 有 的 像素 点 加 上 了 2 位 标签 。 

继续 在 蓝 色 分 量 执行 上 述 步 又， 我们 就 得 到 了 3 位 的 方案 。 重 复 前 面 所 有 步骤 ， 得 到 6 位 方 
K FRR, RAR, BET 8 位 方案 。 这 些 位 形成 了 像素 的 8 位 颜色 下 标 值 ， 相 应 的 24 
位 颜色 是 最 终 小 颜色 立方 体 的 中 心 。 

可 以 看 到 ， 事 实 上 这 种 方案 关注 那些 最 需要 与 大 量 颜 色 区 别 的 位 。 利 用 显示 0~255 数目 的 直 
方 图 ， 我 们 能 很 容易 地 找到 中 值 。 图 3-11 显示 了 图 forestfire .bmp 的 红色 字 节 值 的 直方 图 ， 
以 及 这 些 值 的 中 值 ， 用 竖 线 表示 。 

用 相应 的 颜色 查找 表 中 的 24 位 色 替 代 每 个 像素 得 到 的 24 位 彩色 图 像 仅 是 原 图 的 一 个 近似 。 
当然 ， 上 述 算法 做 了 合理 的 工作 : 在 最 需要 的 地 方 ( 最 需要 注意 小 的 颜色 阴影 差别 ) 赋予 了 最 大 
的 识别 能 力 。 还 需要 提 到 的 是 ， 还 有 一 些 方法 可 用 来 把 近似 误差 从 一 个 像素 分 配 到 另 一 个 。 这 具 
有 平滑 8 位 近似 中 的 问题 的 效果 。 

中 值 区 分 算法 的 更 精确 的 版 本 如 下 所 示 : 

1) 找 出 最 小 的 方形 区 ， 它 包含 图 像 中 的 所 有 颜色 。 


a) 24 位 彩色 图 像 lena .bmp 
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图 3-11 24 位 彩色 图 像 forestfire.bmp 的 红色 字 节 直方 图 将 每 个 像素 标 为 0 或 者 1。 对 于 正在 构造 

的 颜色 表 下 标的 第 二 位 ， 我 们 认为 R 值 比 R 的 中 值 小 ， 将 这 些 像 素 标记 0 或 者 1 是 取决 于 它们 

的 G 值 是 比 G 的 中 值 小 或 者 大 。 继 续 直 到 覆盖 8 位 的 RGB， 最 终 给 出 颜色 查找 表 的 8 位 下 标 

2) 沿 方形 区 的 长 边 排序 它 所 包含 的 颜色 。 

3) 在 排序 链表 的 中 间 处 把 该 方形 区 划分 成 两 个 区 域 。 

4) 重复 上 面 步骤 2、3， 直 到 初始 的 颜色 空间 被 分 割 成 256 个 区 域 为 止 。 

5) 对 每 个 方形 区 ， 把 该 方形 区 中 R、G、B 的 平均 值 作 为 其 代表 〈 中 心 ) 颜色 。 

6) 根据 一 个 像素 的 RGB 值 与 每 个 方形 区 的 中 心 值 的 欧 氏 距离 ， 给 每 个 像素 分 配 一 个 代表 颜 
色 。 在 指向 代表 颜色 的 查找 表 中 〈 其 中 ， 每 种 代表 颜色 是 24 位 的 ，R、G、B 均 为 8 位 ) 用 编号 
替代 像素 。 

这 样 ， 我 们 就 有 了 一 个 256 行 的 表 ， 每 行 含有 3 个 8 位 值 。 行 的 下 标 是 查找 表 的 编号 ， 这 些 
下 标 正 是 存储 在 新 的 量化 颜色 〈 调 色 板 ) 图 像 中 的 像素 值 。 


3.2 ”常见 的 文件 格式 

下 面 介绍 用 于 信息 交换 的 一 些 流行 的 文件 格式 ， 其 中 最 重要 的 一 种 是 8 位 GIF 格式 ， 因 为 它 
与 WWW 和 HTML 标记 语言 有 着 历史 渊源 ， 它 是 能 被 网 络 浏览 器 识别 的 第 一 种 图 像 类 型 。 然 而 ， 
目前 最 重要 和 常用 的 文件 格式 是 JPEG, CHES 9 章 中 详细 介绍 。 
3.2.1 GIF 


图 形 交换 格式 (Graphics Interchange Format，GIF) 是 由 UNISYS 公司 和 Compuserve 公司 开 
发 的 ， 最 初 用 于 通过 调制 解 调 器 在 电话 线 上 传送 图 形 图 像 。GIF 标准 采用 了 Lempel-Ziv-Welch 算法 
〈 一 种 压缩 格式 ， 见 第 7 章 )， 但 对 该 算法 稍 做 改动 ， 把 图 像 扫 描 线 包 改 成 有 效 地 使 用 像素 的 线 组 。 

GIF 标准 仅 适 用 于 8 位 〈256) 彩色 图 像 。 因 为 这 能 够 生成 可 接受 的 颜色 ， 它 最 适合 用 于 具有 
少量 独特 色彩 的 图 像 〈 如 图 形 和 绘画 )。 

GF 图 像 格式 有 一 些 有 趣 的 特点 ， 尽 管 它 在 很 多 地 方 已 经 被 取代 了 。 该 标准 支持 隔行 扫描 一 一 
通过 套色 (four-pass) 显示 方法 处 理 ， 相 隔 的 像素 可 以 连续 显示 。 

事实 上 ，GIF 有 两 个 版 本 ， 最 初 的 规范 是 GIF87a。 后 一 个 版 本 GIF89a 通过 数据 中 的 图 形 控 
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WH fe (Graphics Control Extension) 块 支持 简单 的 动画 。 它 对 延 时 、 透 明 索 引 等 提供 了 简单 的 控 
制 。 像 Corel Draw 这 样 的 软件 支持 对 GIF 图 像 的 访问 和 修改 。 

来 看 看 支持 GIF87 的 文件 格式 的 一 些 细节 是 有 意义 的 , 因为 许多 这 样 的 格式 与 其 有 共同 之 处 ， 
不 过 与 这 个 “简单 ”标准 相 比 ， 己 经 变 得 复杂 很 多 。 对 于 这 个 标准 规范 而 言 ， 常 用 的 文件 格式 如 
3-12 所 示 。 其 中 签名 是 6 个 字 节 : GIF87a; 屏幕 描述 符 是 7 字 节 标志 位 。 一 个 GIF87 文件 可 
以 包含 不 止 一 种 图 像 定义 , 通常 与 屏幕 不 同 的 部 分 匹配 。 因 此 每 个 图 像 可 以 有 自己 的 颜色 查找 表 ， 
BAREM (Local Color Map )， 用 于 把 8 位 映射 成 24 位 RGB 值 。 然 而 ， 局 部 色 图 不 是 必须 的 ， 
可 以 定义 一 个 全 局 的 色 图 并 替代 它 。 

屏幕 描述 符 包 含 了 属于 文件 中 每 个 图 像 的 属性 。 根据 GIF87 标准 ， 它 在 图 3-13 PEN. AR 
宽度 在 前 两 个 字 节 给 出 。 因 为 一 些 机 器 可 能 会 转换 MSB/LSB (Most Significant Byte/Least 
Significant Byte) 顺序 ， 这 个 顺序 就 被 指定 了 。 屏 幕 高 度 在 后 两 个 字 节 。 如 果 没 有 给 出 全 局 色 图 ， 
则 将 第 5 个 字 节 的 “m” 置 0。 颜 色 分 辨 率 “cr” 为 3 位 ， 范 围 从 0~7。 因 为 这 是 一 个 老 的 标准 ， 
通常 在 一 些 低 端 硬件 上 操作 ,“cr” 需 要 很 高 的 颜色 分 辩 率 。 


位 
76543210 字 节 号 # 











[一 一 一 一 一 lO 光栅 宽度 ， 以 像素 为 单位 
屏幕 描述 符 
= JEM BE, MERAM 
全 局 色 图 (LSB 优先 ) 
图 像 描述 符 路 
局 部 色 图 1 背景 = 屏幕 背景 的 颜色 索引 (颜色 
到 从 全 局 色 图 中 定义 ， 若 没有 定义 
WERA 4 的 话 ， 使 用 默认 图 
: mi SR RR RHR 
crtl 颜色 分 关 率 的 位 才 
像素 +1 图 中 的 位 数 /像素 
图 3-12 GIF 文件 格式 A 3-13 GIF 屏幕 描述 符 


下 一 位 显示 为 0， 在 该 标准 中 没有 用 到 。“ 像 素 ”为 另外 3 位 ， 指 明 图 像 文件 中 每 个 像素 的 位 
数 。 但 是 通常 “cr” 等 于 “pixel”， 故 “pixel” 不 是 必须 的 。 第 6 字 节 给 出 背景 颜色 在 颜色 表 中 的 
下 标 ， 第 7 字 节 填 0。 在 现在 的 使 用 中 ， 使 用 较 小 的 颜色 分 辩 率 比较 好 ， 因 为 我 们 可 能 会 对 非常 
低 端 的 设备 感 兴趣 ， 像 支持 上 网 功能 的 手表 。 

可 以 用 一 个 简单 的 方法 建立 色 图 (color map)， 如 位 
图 3-14 所 示 。 然 而 ， 正 如 屏幕 描述 符 指出 的 ， 表 的 真实 长 。 716543210 Fee 


度 等 于 2pixeltl 。 1 BRS O 的 红色 值 
文件 中 的 每 幅 图 像 有 自己 的 图 像 描述 符 ， 在 图 3-15 中 2 颜色 索引 0 的 绿色 值 
定义 。 有 趣 的 是 ， 标 准 的 制定 者 们 为 了 将 来 的 扩展 ， 忽 略 3 MERI 0 的 蓝 色 值 
了 一 幅 图 像 末 尾 和 男 一 幅 图 像 开 始 的 一 些 字 节 ， 用 逗号 来 4 BERII 的 红色 值 
识别 。 这 样 ， 将 来 的 扩展 就 非常 容易 做 到 向 后 兼容 。 5 PERI 1 的 绿色 值 
如 果 局 部 图 像 描 述 符 中 的 隔行 位 Cinterlace) 被 设置 ， 6 BERII 的 蓝 色 值 
则 图 像 的 行 以 4 次 分 别 套 色 顺 序 显示 ， 如 图 3-16 所 示 。 这 (剩余 其 他 颜色 ) 





里 ， 第 一 个 通道 显示 第 0 和 第 8 行 ， 第 二 个 通道 显示 第 4 
和 第 12 行 ， 依 此 类 推 。 这样， 当 一 个 Web 浏览 器 显示 图 像 3-14 GIF 颜色 映射 
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时 ， 就 能 让 图 像 概略 迅速 显示 ， 进 而 再 显示 详细 细节 。 下 面 的 JPEG 标准 具有 相似 的 显示 方式 ， 这 
种 方式 称 为 渐进 式 (progressive) 方式 。 


位 
76543210 字 节 号 # 
图 像 分 隔 符 字符 (去 号 ) 


图 像 在 屏幕 左边 的 开始 处 ， 以 像素 计 〈LSB 优先 ) 


pa 


图 像 在 屏幕 上 边 的 开始 处 ， 以 像素 计 (LSB 优先 ) 


图 像 的 宽度 ， 以 像素 计 〈LSB 优先》 





图 像 的 高 度 ， 以 像素 计 (LSB RE) 


m0 ”使 用 全 局 色 图 ， 忽 略 “像素 ” 
ml 局 部 色 图 遵循 ， 使 用 “像素 ” 
o 以 顺序 序 格式 化 图 像 

以 交错 序 格式 化 图 像 
eke 此 图 像 每 像素 的 位 数 


3-15 GIF 图 像 描 述 符 


Do 了 mwmib 





fan 
© 








图 像 | 
行 ”扫描 1 扫描 2 扫描 3 扫描 4 结果 


*la* *la* 
*4a* *4a* 

*3a* *3a* 

*4b*  *4þb* 

*2a* *2a* 

*4c* #Ac* 

*3b* *3b* 

*4d* = -*4q* 

*1b* *]b* 
*4e* *4e* 

*3c* *3c* 

*4f* #4f* 

*2b* *2b* 





SOMIADNAWNHO 





二 = 
pm 





FA 3-16 GIF 套色 隔行 扫描 显示 行 顺 序 
真实 光栅 数据 (actual raster data) 本 身 在 存储 前 先 用 LZW 压缩 方案 〈 见 第 7 章 ) 压缩 。 
为 了 将 来 的 使 用 ，GIF87 标准 也 设 定 了 扩展 块 该 怎样 定义 。 即 使 在 GIF87 中 ， 也 可 以 获得 简 
单 的 动画 ， 但 是 没有 定义 图 像 间 的 延迟 。 多 幅 图 像 只 会 一 幅 幅 地 履 盖 ， 而 不 会 清 屏 。 
73 GIF89 引进 了 许多 扩展 块 定 义 ,特别 是 那些 和 动画 相关 的 定义 ， 如 透明 和 图 像 间 延迟 。GIF89 
中 引入 的 一 个 相当 有 用 的 特性 是 排序 颜色 表 的 思想 。 最 重要 的 颜色 率先 出 现 ， 这 样 ， 如 果 解 码 器 
只 能 使 用 较 少 的 颜色 , 那么 最 重要 的 颜色 就 被 选中 了 。 也 就 是 说 , 仅 使 用 颜色 查找 表 中 的 一 部 分 ， 
邻近 的 颜色 尽 可 能 映射 到 可 利用 的 颜色 。 
我 们 通过 看 一 个 GIF 图 像 , 就 可 了 解 文件 头 是 怎样 工作 的 。 图 3-7 是 一 幅 8 位 彩色 GIF 图 像 。 
为 了 了 解 文件 头 ， 我 们 可 以 使 用 UNIX 操作 系统 中 比较 常用 的 命令 ,od (octal dump). 在 UNIXS 
下 ， 我 们 使 用 命令 
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od -c forestfire.gif | head -2 


这 样 ， 我 们 就 可 以 看 到 前 32 个 字 节 被 解释 为 如 下 字符 : 


G I F 8 7 a \208 \2 \188 \1 \247 \0 \0 \6 bE XS 
J \132 N24 | ) \7 \198 \195 \ \128 U \27 \196 \166 & T 


为 了 解释 文件 头 的 剩余 部 分 (GIF87a 之 后 的 部 分 )， 我 们 使 用 16 进 制 : 
od -x forestfire.gif | head -2 


得 到 结果 : 


4749 4638 3761 d002 bc01 f700 0006 0305 
ae84 187c 2907 c6c3 5c80 551b c4a6 2654 


其 中 ， 签 名 后 的 a002 M bcol 是 屏幕 宽度 和 高 度 。 它 们 以 低 字 节 在 前 的 顺序 表示 ， 所 以 对 这 
个 文件 ， 屏 幕 宽度 用 10 进 制 表示 是 0+13x16+2x16*=720， 屏 幕 高 度 是 12+11xl16+1x162-444。 然 后 ， 
£7 (10 进 制 的 247) 是 屏幕 描述 符 的 第 5 个 字 节 ， 之 后 是 背景 色 索引 00 和 分 隔 符 00。 标 志 符 £7 以 
位 形式 表示 是 1,111,0,111。 换 句 话 说， 采用 全 局 色 图 ，8 位 颜色 分 辨 率 ，0 分 隔 符 ，8 位 像素 数据 。 


3.2.2 JPEG 


目前 最 重要 的 图 像 压缩 标准 是 JPEG[6]。 该 标准 由 国际 标准 化 组 织 (International Organization 
for Standardization, ISO ) 的 一 个 工作 组 制定 , 该 工作 组 的 一 个 非 正式 称呼 为 联合 图 像 专家 组 (Joint 
Photographic Experts Group), JPEG 也 因此 而 得 名 。 我 们 将 在 第 9 章 详细 学 习 JPEG， 不 过 这 里 先 
介绍 它 的 一 些 主要 特点 。 

JPEG 利用 了 人 类 视觉 系统 一 些 特定 的 局 限 性 ， 从 而 获得 很 高 的 压缩 率 。 眼 - 脑 系统 看 不 到 极 
为 精准 的 细节 。 如 果 一 些 像素 发 生 了 许多 变化 , 我 们 称 图 像 的 那个 部 分 具有 高 空间 频率 ， 即 在 Cr, 
y) 空间 发 生 了 许多 变化 。 和 灰 度 图 相 比 ， 这 个 局 限 对 于 彩色 图 更 为 明显 。 因 此 ，JPEG 中 的 颜色 
信息 被 大 量 丢 掉 并 且 图 像 中 的 小 块 用 空间 频率 域 u v) 来 表现 ， 而 不 是 用 (x，y)， 即 x 和 y 的 改 
变速 度 被 从 低 到 高 进行 估计 ， 然 后 通过 将 这 些 速度 的 系数 或 权 值 进行 分 组 ， 形 成 一 个 新 的 “图 像 ”。 

人 们 总 是 喜欢 缓慢 变化 的 权 值 ， 这 里 有 一 个 简单 的 技巧 : 值 被 大 的 整数 除 然后 截 尾 。 这 样 ， 
小 的 值 就 变 成 了 零 。 然 后 采用 能 有 效 表 示 一 长 串 0 的 方案 。 瞧 ! 图 像 被 极 大 的 压缩 了 。 

因为 我 们 在 除 和 截 短 步骤 中 扔 掉 了 许多 信息 ， 这 种 压缩 方案 是 有 损 的 〈 尽 管 也 有 了 无 损 的 方 
式 )。 而 且 ， 因 为 让 用 户 直 接 选择 使 用 多 大 的 分 母 也 就 是 决定 了 多 少 信息 将 丢失 ，JPEG 人 允许 用 户 
设 定 需 要 的 质量 等 级 ， 或 者 说 是 压缩 率 (输入 除 以 输出 )。 

作为 一 个 例子 ， 图 3-17 展示 了 forestfire 图 像 ， 质 量 因数 O=10% (通常 默认 的 质量 因数 为 
Q=75% )。 





图 3-17 用 户 指 定 的 低 质量 的 JPEG 图 像 〈 彩 色 插页 中 也 有 此 图 ) 
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这 幅 图 仅 是 原 图 大 小 的 1.5%。 在 压缩 时 ， 一 幅 C=75% 的 JPEG 图 像 成 了 大 小 为 原 图 的 5.6% 
的 图 ， 而 这 幅 图 像 的 GIF 版 本 大 小 压缩 到 原 图 的 23.0%. 
3.2.3 PNG 

随 着 因特网 的 流行 ， 研 究 人 员 花 费 大 量 的 精力 研究 更 多 与 系统 无 关 的 图 像 格 式 。 这 样 的 一 个 . 
格式 是 便携 式 网 络 图 形 (Portable Network Graphics, PNG). SAREA ERA GIF 标准 并 做 了 
重要 扩展 。 提 出 一 个 新 标准 的 原因 部 分 在 于 UNISYS 和 Compuserve 在 LZW 压缩 方法 上 的 专利 。 
(有 趣 的 是 , 该 专利 仅仅 有 压缩 , 而 没有 解压 缩 , 这 也 是 为 什么 UNIX 的 gunzip 功能 可 以 将 LZW 
压缩 文件 解压 缩 的 原因 。) 

PNG 的 独特 之 处 是 最 多 可 支持 48 位 的 色彩 信息 一 一 这 是 非常 大 的 进步 。 文 件 可 能 还 包含 用 
于 正确 显示 彩色 图 像 的 伽 马 校正 信息 CO 4.1.6 节 ) 以 及 用 于 透明 控制 的 阿尔 法 通道 信息 。 与 GIF 
基于 宽 展 行 的 渐进 显示 不 同 , PNG 的 显示 在 7 通道 上 对 图 像 的 每 个 8x8 块 一 次 同时 在 二 维 空间 显 
示 一 些 像 素 。 
3.2.4 TIFF 

标记 图 像 文件 格式 〈Tagged Image File Format, TIFF) 是 另 一 种 常用 的 文件 格式 。 它 由 Aldus 
公司 在 20 世纪 80 年 代 开 发 ， 后 来 受到 Microsoft 的 支持 。 它 为 支持 附带 额外 信息 (被 称 为 标记 )》 
提供 了 许多 方便 。 最 重要 的 标记 就 是 格式 表示 (format signifier)， 即 在 图 像 中 用 了 哪些 压缩 类 型 ， 
等 等 。 比 如 ，TIFF 可 以 存储 不 同 的 图 像 类 型 ， 包 括 1 位 、 灰 度 、8 位 、24 位 RGB 等 。TIFF 最 初 
是 无 损 格式 ， 但 是 新 的 了 PEG 标记 能 让 你 选择 使 用 JPEG 压缩 。 因 为 TIFF 不 像 JPEG 那样 是 用 户 
可 控 的 ， 所 以 它 不 具有 后 者 的 主要 优点 。 


3.2.5 EXIF 


SAR AAR XH (Exchange Image File, EXIF) 是 用 于 数码 相机 的 图 像 格 式 。 它 最 初 发 明 于 1995 
年 ， 当 前 的 版 本 (2.2) 在 2002 年 由 日 本 电子 和 信息 技术 工业 联合 会 (JEITA) RA. 压缩 的 EXIF 
文件 采用 基线 JPEG 格式 。 有 多 种 标记 〈 比 TIFF 中 的 多 很 多 ) 可 以 用 来 支持 高 质量 打印 ， 因 为 有 
关照 相机 和 上 照相 环境 闪光、 上 曝光 、 光 源 、 白 平衡 、 场 景 类 型 等 ) 的 信息 能 够 存储 下 来 并 且 供 打 
印 机 用 于 可 能 的 色彩 校正 算法 中 。EXIF 标准 也 包含 用 于 数字 图 像 伴随 的 声音 的 文件 格式 的 规范 。 
它 也 支持 用 于 转换 为 FlashPix (最 初 由 Kodak 开发 ) 所 需 信息 的 标记 。 
3.2.6 图 形 动画 文件 

一 些 主流 格式 的 目标 都 是 以 存储 图 形 动 画 〈 如 一 系列 的 画图 或 者 图 形 插图 ) 来 对 抗 视频 ( 比 
如 ， 一 系列 的 图 像 )。 二 者 区 别 在 于 ， 与 视频 文件 相 比 ， 动 画 对 于 资源 的 要 求 相当 少 。 然 而 ， 动 
画 文件 格式 可 以 用 来 存储 视频 信息 并 且 有 时 就 是 这 人 么 用 的 。 

FLC 是 一 种 重要 的 动画 或 者 移动 图 片 文件 格式 ， 它 最 初 由 Animation Pro 创建 。 另 一 种 格式 
FLI 与 FLC 相似 。 

GL 能 产生 出 质量 更 好 的 移动 图 片 。GL 动画 也 能 够 处 理 大 文件 。 

许多 老 一 点 的 格式 也 能 用 于 动画 ， 像 DL、Amiga IFF, 还 可 以 应 用 Apple Quicktime。 当 然 ， 
用 于 动画 的 GIF89 文件 也 可 以 用 于 动画 。 
3.2.7 PS #1 PDF 


PostScript 是 一 种 用 于 排版 的 重要 语言 ， 许 多 高 端的 打印 机 有 内 置 的 PostScript 解释 器 。 
PostScript 是 基于 向 量 的 (而 不 是 基于 像素 的 ) 图 片 语言 ， 其 页 元 素 本 质 上 用 向 量 定义 。 有 了 以 这 
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种 方式 定义 的 字体 ，PostScript 包含 文本 ， 也 包含 向 量 /结构 化 图 形 ;位 映射 图 像 也 可 以 包含 在 输 
出 图 像 中 。 封 装 的 PostScript 文件 加 上 一 些 信 息 就 可 以 将 PostScript 文件 包含 在 另 一 个 文档 中 。 

一 些 流行 的 图 形 程序 ， 如 Mustrator 和 FreeHand， 都 会 用 到 PostScript. Mii. PostScript 页 描 
述 语言 本 身 并 没有 提供 压缩 。 实 际 上 ，PostScript 文件 就 是 用 ASCH 保存 的 。 因 此 ， 文 件 通 常 都 
很 大 ， 从 理论 上 说 ， 这 种 文件 通常 只 有 在 利用 UNIX 的 工具 如 compress 或 者 是 gzip 压缩 之 后 
才能 够 使 用 。 

因此 , 另 一 种 文本 + 图 的 语言 已 经 开始 取代 PostScript, Adobe Systems 公司 在 它 的 便携 式 文档 
格式 〈Portable Document Format, PDF) 中 包含 了 LZW ( 见 第 7 章 ) 压缩 。 其 结果 是 ， 不 包含 图 
AY PDF 文件 拥有 几乎 相同 的 压缩 比 ，2:1 或 者 3:1， 就 像 用 其 他 基于 LZW 压缩 工具 的 文件 一 
样 ， 比 如 UNIX 的 compress 或 是 gzip 基于 PC 的 winzip (pkzip 的 一 个 变种 )。 对 于 包含 图 像 的 文 
件 ，PDF 通过 对 图 像 内 容 使 用 单独 的 JPEG 压缩 (和 创建 原始 图 和 压缩 版 本 的 工具 有 关 )， 可 以 获 
得 更 高 的 压缩 比 。Adobe Acrobat PDF 阅读 器 也 可 以 用 于 阅读 构建 为 超 链接 元 素 的 文档 ， 这 种 文 
档 提供 可 点 击 的 内 容 和 方便 的 树 状 结构 的 总 结 的 链接 图 表 。 


3.2.8 Windows WMF 

Windows MetaFile (WMF, Windows 元 文件 ) 是 用 于 Microsoft Windows 操作 环境 的 本 地 向 量 
文件 格式 。WME 文件 实际 上 由 一 系列 图 形 设备 接口 〈Graphics Device Interface, GDI) 函数 调用 
组 成 ， 它 对 Windows 环境 而 言 也 是 本 地 的 。 当 一 个 WME 文件 被 “播放 ”( 通 常 使 用 Windows 的 
PlayMetaFile() 函 数 )， 所 描述 的 图 形 便 被 呈现 。WMEF 文件 表面 上 是 设备 无 关 和 大 小 无 限制 的 。 
3.2.9 Windows BMP 

位 图 (BitMap, BMP) 是 Microsoft Windows 主要 的 系统 标准 图 形 文件 格式 ,用 在 Microsoft Paint 
和 其 他 程序 中 。 它 使 用 游 长 编码 压缩 ( 见 第 7 章 )， 并 能 够 有 效 地 存储 24 位 位 图 图 像 。 然 而 ， 要 
注意 的 是 ，BMP 包含 了 许多 方式 ， 包 括 非 压缩 的 24 位 图 像 。 
3.2.10 Macintosh PAINT 和 PICT 


PAINT 最 初 是 在 MacPaint 程序 中 使 用 ， 一 开始 只 支持 1 位 单 色 图 像 。 
PICT 在 MacDraw 〈 基 于 向 量 的 画图 程序 ) 中 用 于 存储 结构 化 图 形 。 


3.2.11 X Windows PPM 


这 是 用 于 X Windows 系统 的 图 形 格式 。 可 移植 的 像素 映射 (Portable PixMap, PPM) 支持 24 
位 彩色 位 图 ， 并 能 够 用 许多 公共 领域 的 图 形 编辑 器 操作 ， 比 如 xv。 它 在 X Windows 系统 中 用 于 
存储 图 标 、 像 素 映 射 、 背 景 等 。 


3.3 ”进一步 探索 


Foley 等 [2] 对 计算 机 图 形 学 提供 了 详尽 的 介绍 。 图 像 处 理 问 题 的 更 好 的 讨论 见 Gonzalez 和 
Woods 的 著作 [7]。 包 含 当 前 常用 文件 格式 的 列表 的 更 多 信息 可 以 在 本 书 的 网 页 上 找到 ， 在 第 3 章 
“Further Exploration” 目 录 下 可 以 找到 这 些 信 息 。 

其 他 的 链接 包括 : 

。 GIF87 和 GIF89 细节 。 虽 然 这 些 文件 格式 不 是 那么 有 趣 ， 但 它们 很 简单 ， 而 且 可 以 从 中 了 

解 位 流 怎样 开始 的 。 
。 用 于 开发 GIF 动画 的 流行 共享 软件 。 
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。JPEG 详细 考虑 。 

。PNG 细节 。 

。PDF 文件 格式 。 

。 普 适 的 BMP 文件 格式 。 

根据 这 些 文件 格式 实际 的 输入 /输出 ， 网 站 上 有 用 于 读 和 操作 简单 的 24 位 BMP 文件 的 代码 。 


3.4 练习 


1. 简要 解释 为 什么 我 们 需要 少 于 24 位 的 颜色 ， 而 且 这 样 为 什么 会 带 来 麻烦 ? 一 般 而 言 ， 我 们 需 
要 怎样 做 才能 把 24 位 颜色 值 转换 为 8 位 颜色 值 ? 

2. 假设 我 们 需要 量化 8 位 的 灰 度 图 像 到 仅仅 2 位 精度 。 最 简单 的 办 法 是 什么 ? 原 图 像 中 字 节 值 
的 哪个 范围 映射 到 哪个 量化 值 ? 

3. 假设 我 们 有 5 位 灰 度 图 像 。 我 们 需要 多 大 的 抖动 矩阵 来 在 1 位 打印 机 上 显示 这 幅 图 ? 

4. 假设 对 一 幅 彩 色 图 像 的 每 一 个 像素 ， 我 们 有 24 位 可 以 利用 。 然 而 ， 我 们 发 现 ， 比 起 蓝 色 来 ， 
人 们 对 红色 和 绿色 更 敏感 ， 实 际 上 ， 人 们 对 红色 和 绿色 的 敏感 度 是 蓝 色 的 1.5 倍 。 我 们 怎样 才 
能 最 好 地 使 用 可 以 利用 的 位 ? 

5， 在 你 的 工作 中 ， 你 决定 通过 用 更 多 的 磁盘 空间 来 存储 公司 的 灰 度 图 像 ， 以 给 你 的 老板 留 下 深 
刻印 象 。 你 喜欢 用 RGB， 每 个 像素 48 位 ， 而 不 是 每 个 像素 使 用 8 位 。 那 么 ， 你 怎样 用 新 的 格 
式 存储 原来 的 灰 度 图 像 以 使 它们 在 视觉 上 看 起 来 和 原来 一 样 呢 ? 

6. 有 时， 一 幅 图 像 的 位 平面 可 以 用 地 图 绘制 中 “海拔 ”这 个 术语 来 刻画 。 图 3-18 显示 了 一 些 海 
拔 值 。 
假设 我 们 用 8 位 平面 来 描述 8 位 图 像 。 简 短 讨论 你 怎样 才能 根据 地 理 概 念 来 观看 每 个 位 平面 。 


120 
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图 3-18 地理 上 的 海拔 


7. 对 于 颜色 查找 表 问 题 ， 在 一 幅 图 像 上 试 试 中 值 区 分 算法 。 简 要 解释 该 算法 若 用 在 一 幅 红 芋 
果 图 像 上 ， 在 红颜 色 中 ， 为 什么 把 更 多 的 颜色 等 级 放 在 那些 需要 24 位 彩色 图 像 的 地 方 ? 
8. 关于 无 序 抖动 ， 一 本 标准 的 图 形 教材 [2] 讲 到 :“ 甚 至 可 以 使 用 更 大 的 模式 ， 但 是 空间 分 辨 率 

与 亮度 分 辩 率 的 折 中 受到 我 们 视觉 敏锐 程度 普通 光 中 大 约 1 的 弧 〉 的 限制 。” 
(a) 这 句 话 是 什么 意思 ? 
(b) 如 果 拿 着 一 张 纸 站 在 一 英尺 开外 的 地 方 ， 点 之 间 的 大 致 线性 距离 是 多 少 ? GER: 1 
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的 弧 是 上 的 角 的 1160。 一 个 圆 上 的 弧 长 等 于 角 〈 用 弧度 ) 乘 以 半径 。) 我 们 能 够 看 到 用 
300dpi 打印 机 打出 的 点 的 间隙 吗 ? 
(c) 写 一 个 算法 〈 伪 代码 ) 来 计算 RGB 数据 的 颜色 直方 图 。 
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第 4 章 图 像 和 视频 中 的 颜色 


彩色 图 像 和 视频 在 网 络 和 多 媒体 产品 中 随处 可 见 。 人 们 日 益 关 注 见 到 的 颜色 与 屏幕 上 所 显示 
的 颜色 之 间 存 在 差异 的 问题 。HTML 标准 最 新 的 版 本 试图 解决 这 个 问题 ， 它 按照 一 个 由 色彩 方面 
的 科学 家 制定 的 标准 “SRGB ”来 指定 颜色 。 

为 了 了解 简单 而 又 奇妙 的 色彩 世界 ， 我 们 在 本 章 中 将 介绍 如 下 主题 : 

。 颜色 科学 。 

。 图像 中 的 颜色 模型 。 

o 视频 中 的 颜色 模型 。 

4.1 颜色 科学 
4.1.1 光 和 光谱 

回忆 高 中 时 学 过 的 内 容 ， 光 是 一 种 电磁 波 ， 它 的 颜色 由 波 的 波长 决定 。 激 光 由 单 波长 组 成 ， 
比如 ， 红 宝石 激光 能 发 出 明亮 的 鲜红 的 光束 。 所 以 ， 如 果 我 们 要 将 光 的 亮度 与 波长 之 间 的 关系 用 
图 表示 ， 我 们 将 看 到 的 是 在 适当 的 红色 波长 处 的 一 个 尖峰 而 没有 其 他 波长 的 贡献 。 

相 比 之 下 ， 大 多 数 光源 在 许多 波长 都 有 贡献 。 人 类 不 可 能 看 到 所 有 的 光 ， 仅 能 看 到 对 可 见 波 
长 有 贡献 的 部 分 。 短 波长 产生 蓝 色 感 觉 ， 而 长 波长 产生 红色 感觉 。 

我 们 用 一 个 叫 分 光 光 度 计 (spectrophotometer) 的 仪器 来 测量 可 见 光 (visible light)， 该 仪器 
反射 从 一 个 衍射 光栅 (表面 有 刻度 ) 发 出 的 光 。 衍 射 光 栅 使 不 同 波长 的 光 分 开 ， 就 像 棱镜 一 样 。 
图 4-1 展示 了 一 个 现象 : 白光 含有 彩虹 所 有 的 颜色 。 如 果 你 透 过 棱镜 看 ， 你 会 注意 到 它 会 产生 彩 
虹 的 效果 ， 这 是 由 于 自然 界 的 散射 (dispersion) 现象 造成 的 。 在 肥皂 泡 表 面 能 看 到 相似 的 现象 。 

可 见 光 是 波长 在 400~700nm 的 电磁 波 (这 里 nm 表示 纳米 ， 即 103 米 )。 图 4-2 显示 了 在 晴朗 
的 天 气 典 型 的 户外 光 在 每 个 波长 间隔 的 相对 能 量 。 这 种 被 称 为 光谱 能 量 分 布 (SPD) 或 者 是 光谱 


(spectrum) 的 曲线 显示 了 每 个 波长 的 光 的 能 量 〔 电 磁 信号 ) 的 相对 数量 。 波 长 符号 是 1， 所 以 这 
种 曲线 可 以 表示 为 EA). 





a 


4-1 Isaac Newton 先生 的 实验 (经 牛津 大 学 New College 的 Warden 和 Fellows 的 同意 ) 
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在 实践 中 ， 通 常用 以 下 方法 测量 : 把 一 个 小 的 波长 范围 (如 5~10nm) 内 的 电压 数 加 起 来 ， 
所 以 这 样 的 图 通常 由 每 10nm 一 个 的 函数 值 连接 起 来 的 段 组 成 。 这 也 意味 着 这 样 的 轮廓 可 以 用 向 
量 存储 。 尽 管 在 实际 中 ， 积 分 用 求 和 来 计算 ， 但 在 下 面 的 方程 中 ， 我 们 把 EA) 看 作 连 续 函 数 。 


4.1.2 人 的 视 党 


眼睛 就 像 一 个 照相 机 一 样 ， 唱 状 体 把 图 像 聚 焦 在 视网膜 上 但 此 时 图 像 的 上 下 和 左右 都 是 颠 
倒 的 )。 视 网 膜 由 一 组 柱状 细胞 和 三 种 视 锥 细胞 组 成 ， 它 们 都 是 因 其 形状 而 得 名 。 当 光线 亮度 较 
低 的 时 候 柱状 细胞 发 挥 作 用 ， 制 造 出 灰 度 阴影 图 像 (“在 晚上 ， 所 有 的 猫 都 是 灰 的 ”)。 在 光线 亮 
度 高 的 时 候 , 每 个 视 锥 细胞 都 产生 一 个 信号 。 因 为 它们 的 色素 不 同 ， 所 以 三 种 视 锥 细胞 对 红 (R)、 
绿 (G) HE B) 光线 最 敏感 。 

更 高 的 光线 级 层 将 使 更 多 的 神经 元 激发 起 来 ， 但 是 按照 这 个 思路 思考 ， 在 大 脑 中 究竟 发 生 了 
什么 却 是 一 个 仍 在 争论 的 课题 。 然 而 ,大 脑 似乎 利用 了 R-G, G-B, B-R 之 间 的 差异 ， 当 然 也 有 将 R， 
G 和 8B 结合 进 高 的 光线 级 层 的 消 色 差 通道 (这 样 ， 我 们 就 能 说 大 脑 的 代数 学 不 错 )。 


4.1.3 眼睛 的 光谱 灵敏度 —_ 
眼睛 对 可 见 光 谐 中 间 部 分 的 光 最 为 敏感 。 就 像 一 | 


个 光源 的 光谱 能 量 分 布 轮廓 , 如 图 4-2 所 示 , 对 接收 器 ， 
我 们 显示 了 相对 灵敏 度 作为 波长 的 函数 。 蓝 色 接收 器 
的 灵敏 度 没有 按照 比例 来 显示 ， 因 为 它 比 红色 和 绿色 
的 曲线 要 小 很 多 。 蓝 色 在 演化 曲线 中 是 一 个 持续 很 晚 
的 添加 。( 而 且 ， 据 统计 ， 不 管 哪个 国家 ， 蓝 色 是 人 类 _ 
钟爱 的 颜色 一 也许 就 是 这 个 原因 吧 。 蓝 色 真 是 有 点 让 40 aso soo 550 60 650 70 
人 惊奇 !) 图 4-3 用 虚线 显示 了 灵敏 度 的 总 和 ， 该 虚线 

称 为 发 光 效率 函数 。 它 通常 用 V (4) 表示 ， 是 红色 、 绿 图 4-2 日 光 的 光谱 能 量 分 布 
色 和 蓝 色 响 应 曲线 的 总 和 [1 和 2]。 





光谱 能 量 分 布 


























400 450 500 550 600 650 700 
波长 (nm) 


图 4-3 ” 视 锥 细胞 灵敏 度 : R、G 和 BREME, UL De See RE HR VA) 


柱状 细胞 对 大 范围 的 波长 敏感 ， 但 是 产生 的 信号 只 对 黑白 敏感 。 柱 状 细胞 的 灵敏 度 曲 线 看 起 
来 和 发 光 效率 函数 W 力 类 似 ， 但 是 向 光谱 的 红 端 略 有 偏 移 。 

眼睛 有 大 约 600 万 个 视 锥 细胞 ， 但 是 R、G 和 B 视 锥 细胞 所 占 的 比例 是 不 同 的 。 它 们 的 比例 
大 约 为 40:20:1( 参 阅 [3] 可 得 到 详细 的 解释 )。 所 以 由 视 锥 细胞 产生 的 消 色 差 通道 类 似 2R+G+B/20。 
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光谱 有 灵敏度 函 数 通常 用 非 R、G、B 的 字母 表示 ， 所 以 这 里 让 我 们 用 向 量 函 数 g(4) 来 表示 它 
们 ， 各 分 量 为 
q(A)=[qr(A), qc(A), qs (WT (4.1) 
也 就 是 说 ， 这 里 有 三 个 传感器 (因此 向 量 下 标 入 1,2,3 适用 )， 每 个 传感器 都 是 波长 的 函数 。 
眼睛 里 每 个 颜色 通道 的 反应 与 神经 元 激发 的 数量 成 比例 。 对 红色 通道 来 说 ， 落 入 图 4-3 所 示 
的 红色 视 锥 函数 的 非 零 区 域 的 光线 都 将 产生 反应 。 所 以 红色 通道 的 总 反应 是 落 入 视网膜 的 红色 视 
锥 细胞 敏感 的 光线 的 和 ， 权 值 由 那里 波长 的 灵敏 度 决定 。 再 一 次 把 这 些 灵 敏 度 看 作 连 续 函 数 ， 我 
们 就 能 用 积分 的 形式 把 这 个 思想 简明 地 表达 出 来 : 
R= Í E(A)qr(A)da 
G= | E(A)qg(A)da (4.2) 
B= | E(A)qp(A)da 
因为 被 传递 的 信号 由 三 个 数组 成 ， 颜 色 形 成 了 三 维 向 量 空间 。 
4.1.4 图像 的 形成 
上 面 的 式 〈4.2) 实际 上 只 有 在 我 们 看 一 个 自己 发 光 的 物体 (比如 ， 一 荔 灯 ) 时 才 成 立 。 在 大 
多 数 情况 下 ， 我 们 假设 光 是 从 物体 表面 反射 得 到 的 。 物 体 表 面 在 不 同 的 波长 处 所 反射 的 光 的 能 量 


是 不 同 的 ， 深 色 表面 反射 的 能 量 少 于 浅 色 表 面 。 图 4-4 展示 了 从 橙色 运动 鞋 和 褪色 的 蓝 色 牛仔 裤 
的 表面 反射 的 光谱 [4]。 反 射 函数 用 S(A) 表示 。 


成 像 的 情形 如 下 所 示 : 具有 光谱 能 量 分 布 E(4) 的 光源 发 出 的 光照 射 到 一 个 具有 表面 光谱 反射 
函数 89(4) 的 表面 后 被 反射 ， 然 后 被 眼睛 的 视 锥 函数 g(4) 过 滤 。 基 本 的 过 程 如 图 4-5 所 示 。 函 数 
CA 称 为 颜色 信号 〈color signal)， 是 光源 EA) 5S RH S(A) 的 乘积 : CA) = E(A)S(A) 。 












Ney E(A) 
S 4 
= a Sneakers S(A) < 
Ar 3 “Ss 
着 7 CA S ) 
a \ Jeans = ae a 
© "A 
一 SS 传感器 arsc.n(A) 
oS =s — ~ — d 
400 450 500 550 600 650 700 Poy a 
波长 (nm) R G B 
图 4-4 两 个 物体 的 表面 光谱 反射 函数 SA) 图 4-5 成 像 模型 


类 似 于 式 (4.2) 的 考虑 成 像 模 型 的 方程 为 : 
R = | E(A)S(A)qe(A)da 
G= | E(A)S(A)go (WdA (4.3) 
B= [EDSA (ayaa 
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4.1.5 照相 机 系统 


现在 ， 人 类 发 明了 以 相似 方式 工作 的 照相 机 系统 。 好 的 照相 机 在 每 个 像素 位 置 (与 视网膜 的 
位 置 对 应 ) 产生 三 个 信号 。 模 拟 信号 转变 为 数字 截取 为 整数 ), 并 被 存储 起 来 。 如 果 使 用 8 位 
精度 ，R、G、B 的 最 大 值 为 255， 最 小 值 为 0。 35 


然而 ， 进 入 电脑 用 户 RAR EM — aA 自发 光 的 光源 。 因 此 ， | ， 
我 们 需要 知道 进入 眼睛 的 光线 EA). . >: 86 


4.1.6 MBRE 

图 像 文件 中 的 RGB 数值 被 转换 回 模拟 信号 并 驱动 阴极 射线 管 〈Cathode Ray Tube, CRT) 中 的 
电子 枪 。 电 子 的 发 射 与 驱动 电压 成 比例 ， 并 且 我 们 希望 CRT 系统 产生 的 光线 与 电压 线性 相关 。 但 
情况 并 非 如 此 。CRT 产生 的 光线 实际 上 与 电压 的 指数 大 致 成 正比 ; 这 个 指数 称 为 “gamma”( 伽 马 )， 
符号 为 7。 

如 果 文 件 在 红色 通道 的 值 是 尺 则 屏幕 发 射 的 光线 与 R? 成 正比 ， 光 谱 能 量 分 布 (SPD ) 等 于 
屏幕 上 【红色 通道 电子 枪 的 目标 ) 的 红色 荧光 颜料 的 分 布 。? 秆 大 致 在 2.2 左右 。 

因为 电视 接收 器 的 工作 机 制 与 计算 机 的 CRT 相似 , 电视 系统 在 传送 电视 电压 信号 之 前 通过 实 
施 反 变换 来 预 修 正 这 种 情况 。 通 常 是 对 需 “ 伽 马 校 正 ” 的 信号 在 发 射 前 将 其 指数 变 为 /Y。 这 样 ， 
我 们 就 有 : 

R-R’=R'” (RY OR (4.4) 

因此 可 以 获得 “线性 信号 ”。 

电压 通常 规范 化 到 最 大 值 为 1， 来 看 看 伽 马 变 换 对 信和 号 的 影响 。 图 4-6a 显示 了 没有 应 用 伽 马 
校正 的 输出 光 。 我 们 可 以 看 到 ， 深 一 点 的 值 的 显示 就 太 深 了 。 图 4-7a 也 显示 了 这 种 情况 ， 该 图 显 
示 了 一 个 从 左 到 右 的 线性 坡 道 。 

图 4-6b 显示 了 通过 应 用 指数 定律 R" 的 预 校正 信号 的 效果 ， 通 常规 范 化 电压 在 0~1 区 间 。 我 
们 看 到 ， 在 4-6b 中 首先 实施 了 校正 ， 接 着 是 4-6a 中 CRT 系统 的 影响 ， 如 此 则 产生 了 线性 信和 号。 
图 4-7b 显示 了 综合 效果 。 这 里 ， 斜 坡 用 16 步 表 示 ， 范 围 从 灰 度 级 0 到 灰 度 级 255。 








Fn BRIE WIRE 
2 © 
œ æ% 
© © 
© 2 
© © 
T g 
Ry Ry 
a a 
© © 
e 2 
© i=] 
00 02 04 06 08 10 00 02 04 06 08 10 
电压 电压 
a) 没有 铅 马 校正 一 -屏幕 发 出 的 光 在 CRT 上 的 D 信号 的 伽 马 校正 
效果 《电压 被 规范 化 到 范围 0~1) 
图 4-6 7 校正 的 效果 


更 精确 的 7 定义 发 现 ， 简单 的 指数 定律 会 在 0 电压 处 导致 无 穷 的 导数 ， 这 会 造成 很 难 设计 一 
个 完成 伽 马 校正 的 模拟 线路 。 实 践 中 ， 采 用 更 通用 的 变换 ， 比 如 R 歼 R' =axR" +b, ÆRA 
有 特别 处 理 : 
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a) 从 0~255 的 斜坡 显示 ， 没 有 伽 马 校正 b) 使 用 了 伽 马 校正 的 图 像 
图 4-7 MSR 


Vn teas (Vin < 0.018) wee 


~ |1.099X (Vin — 0.099) (Vin > 0.018) 


这 称 为 摄像 机 变换 函数 (camera transfer function)， 上 面 这 个 定律 被 美国 电影 电视 工程 师 学 会 
(Motion Picture and Television Engineers, SMPTE) 推荐 为 SMPTE-170M 标准 。 

为 什么 Y 值 是 2.2 呢 ? 实际 上 , 这 个 值 并 不 能 产生 最 终 指数 为 1.0 的 定律 。 这 个 数 的 历史 被 掩 
藏 在 电视 机 发 明 时 美国 国家 电视 系统 委员 会 (National Television System Committee，NTSC) 的 决 
定之 中 。 对 彩色 接收 器 ， 指 数 定律 实际 上 更 接近 2.8。 然 而 ， 如 果 我 们 对 这 个 指数 定律 仅仅 补偿 
2.2， 我 们 得 到 1.25 的 整体 结果 而 不 是 1.0。 想 法 是 : 在 充满 昏暗 的 观察 条 件 下 ， 这 样 一 个 整体 的 
转换 产生 出 更 令 人 满意 的 图 像 , 虽然 带 有 颜色 错误 一 一 深 的 颜色 变 得 更 深 , 眼 - 脑 系统 也 改变 了 对 
浅 色 和 深 色 的 相对 对 比 度 [5]。 

随 着 基于 CRT 的 计算 机 系统 的 出 现 , 情况 就 变 得 更 加 有 趣 。 摄像机 可 能 插入 (也 可 能 没有 插 
A) 伽 马 校正 ， 软 件 可 能 用 某 个 伽 马 值 来 写 入 图 像 文 件 ， 软 件 可 能 对 期 望 的 某 个 〈 其 他 ) 伽 马 解 
码 ; 图 像 存储 在 帧 缓存 中 ， 通 常 在 帧 缓存 中 为 伽 马 提供 一 个 查找 表 。 毕 竟 ， 如 果 我 们 用 计算 机 图 
形 学 来 产生 图 像 ， 没 有 使 用 伽 马 ， 但 是 仍然 需要 用 伽 马 对 显示 进行 预 补偿 。 

那么 ， 定 义 一 个 考虑 了 所 有 这 些 变换 的 全 局 “系统 ” 伽 马 是 有 意义 的 。 遗 憾 的 是 ， 我 们 必须 
经 常 对 全 局 伽 马 值 进行 猜测 。Adobe Photoshop 允许 我 们 尝试 不 同 的 伽 马 值 。 在 进行 WWW 发 布 
的 时 候 , 知道 Macintosh 在 它 的 图 形 卡 里 面 进行 了 伽 马 值 为 1.8 的 伽 马 校正 是 很 重要 的 。SGI 机 希 
AMM SE 1.4， 而 大 多 数 PC 机 或 者 是 Sun 工作 站 没有 做 额外 的 伽 马 校正 ， 并 且 可 能 显示 伽 马 值 
为 2.5。 因 此 ， 对 于 最 常见 的 机 器 ， 用 Macintosh 和 PC 机 的 平均 值 (大约 2.1) 来 对 图 像 进行 校正 
是 有 意义 的 。 

然而 , 大 多 数 从 业者 使 用 的 值 可 能 是 2.4, 这 个 值 也 被 标准 RGB (sRGB) 组 织 所 采纳 。 WWW 
应 用 的 一 个 新 的 “标准 ”RGB 称 为 SRGB， 包 含 在 将 来 所 有 的 超 文本 标记 语言 (HTML) 标准 中 。 
它 定义 了 典型 光线 级 别 的 标准 模型 和 显示 器 条 件 ，( 或 多 或 少 ) 是 用 于 Internet 的 设备 无 关 的 颜色 
空间 。 

与 伽 马 校正 相关 的 一 个 问题 是 : 如 何 决定 在 一 个 文件 的 像素 值 中 ， 什 么 样 的 亮度 级 由 什么 样 
的 位 模式 来 表现 。 眼 睛 对 亮度 级 比率 ， 而 不 是 绝对 亮度 最 敏感 。 这 意味 着 光线 越 亮 ， 亮 度 级 的 改 
变 也 必须 越 大 ， 才 能 够 感知 到 这 种 改变 。 

如 果 我 们 能 精确 控制 表现 亮度 的 位 ， 那 么 用 算法 对 亮度 进行 编码 以 使 可 利用 的 位 能 最 大 限度 
地 使 用 是 很 有 意义 的 。 那 么 ， 我 们 应 该 包括 使 用 1/) 指 数 定律 变换 的 那个 编码 ， 如 式 (4.4) 所 示 ， 


HAF ARPRRPHRE O61 


或 者 执行 这 样 的 逆 函 数 〈 见 [6] 的 564 H) 的 查找 表 。 

然而 ， 最 有 可 能 的 是 ， 我 们 遇 到 的 图 像 或 者 视频 没有 位 级 的 非 线 性 编码 ， 而 是 由 可 携 式 摄像 
机 产生 ， 或 是 用 于 广播 电视 。 这 些 图 像 将 根据 式 (4.4) 进行 伽 马 校正 。 国 际 照明 协会 (CE) 发 
起 的 基于 色差 标准 的 CIELAB 提供 了 用 于 包含 人 类 亮度 感觉 的 非 线 性 方面 的 精细 的 算法 ， 详 细 讨 
论 见 4.1.14 节 。 


4.1.7 颜色 匹配 函数 


事实 上 ， 许 多 颜色 应 用 程序 涉及 指定 和 重新 创建 符合 特定 要 求 的 颜色 。 假 设 你 希望 在 屏幕 上 
复制 一 个 特殊 的 阴影 ， 或 是 染色 布 的 特殊 深浅 。 多 年 来 ， 甚 至 在 图 4-3 的 眼睛 -灵敏 度 曲线 产生 之 
前 , 一 门 包含 于 心理 学 中 的 技术 把 基本 的 R、G、B 光线 的 组 合 与 某 种 色调 匹配 起 来 。 三 种 基本 光 
线 可 以 组 成 特殊 集合 ， 这 个 集合 称 为 原色 (color primaries) 集 。 为 了 与 给 定 的 色调 匹配 ， 要 求 一 
组 观察 者 利用 控件 分 别 调节 三 原色 的 亮度 , 直到 最 终 的 光线 的 点 与 要 求 颜色 最 为 接近 为 止 。 图 4-8 
展示 了 基本 的 情形 。 执 行 这 样 一 个 实验 的 装置 称 为 色 度 计 (colorimeter)。 





图 4-8 色 度 计 实验 


颜色 的 国际 标准 组 织 , 国际 照明 组 织 (Commission Internationale de L’Eclairage, CIE), 在 1931 
年 用 一 个 称 为 颜色 匹配 函数 〈color-matching function) 的 曲线 集中 了 所 有 这 些 数据 。 他 们 使 用 的 
原色 在 440、545 和 580 纳米 处 具有 峰值 。 假 设 你 对 匹配 已 知 波长 的 激光 〈 即 单 色 的 ) 而 非 布 样 
感 兴趣 ， 那 么 颜色 匹配 实验 由 需要 用 在 光 的 每 个 单独 的 窄带 波长 的 原色 的 比例 来 描述 ， 则 一 般 光 
由 单 波长 结果 的 线性 组 合 匹 配 。 

图 4-9 显示 了 CIE 的 颜色 匹配 曲线 ， 用 7F(4) 、#(4)、5(4) 表示 。 实 际 上 ， 这 个 曲线 是 远离 
图 4-3 眼睛 灵敏 度 的 线性 矩阵 乘积 。 

为 什么 曲线 的 某 些 部 分 是 负 的 呢 ? 这 说 明 一 些 颜色 不 能 由 原色 的 线性 组 合 来 产生 。 对 这 样 的 
颜色 ， 一 种 或 更 多 原色 的 光线 必须 从 图 4-8 黑色 部 分 的 一 端 移 到 另 一 端 ， 那 么 它们 照 亮 了 被 匹配 
的 样 例 而 不 是 白 屏 。 这 样 ， 从 某 种 意义 上 说 ， 这 种 样 例 被 负 光 匹配 。 
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相对 敏感 度 





400 450 500 550 600 650 700 
HK (nm) 


图 4-9 CIE 颜色 匹配 函数 (1),5(0),5(N) 


41.8 CIE 色 度 图 


以 前 ， 工 程 师 们 发 现 ， 图 4-9 所 示 的 CIE 颜色 匹配 曲线 有 负 的 圆 形 突出 部 分 ， 这 让 人 感到 不 
快 。 因 此 ， 设 计 了 一 套 虚拟 原色 以 使 颜色 匹配 函数 只 有 正 值 。 图 4-10 显示 了 结果 曲线 ， 它 们 通常 
被 称 为 颜色 匹配 函数 。 它们 是 从 . g b 曲线 进行 线性 (3x3 矩阵) 变换 而 得 到 的 , FAS XA) 、 
YA). 2A) 表示 。 变 换 矩 阵 是 根据 以 下 条 件 选择 的 : 中 间 的 标准 的 颜色 匹配 函数 VA) 与 图 4-3 
所 示 的 发 光 效 率 曲线 V(4) 完全 相等 。 


FA) 7A) 


相对 敏感 度 











400 450 500 550 600 650 700 
波长 (nm) 


4-10 CIE tre LAC XA). YA). ZA) 
对 于 一 个 光谱 能 量 分 布 E(4) 来 说 ， 表 现 颜 色 特征 所 需 的 基本 色 度 信息 是 三 色 值 (tristimulus 
value) X、Y、2Z 的 集合 ， 其 定义 与 式 〈4.1) 类 似 ， 如 下 所 示 : 
X = [EAR 
Y = [ E(A)y(A)da (4.6) 
Z = | EAZ Ada 


中 间 值 Y 称 为 亮度 〈luminance)。 所 有 的 颜色 信息 和 变换 都 与 这 几 个 特殊 值 有 关 ， 它 们 包含 
了 关于 人 类 视觉 系统 的 丰富 信息 。 然 而 ， 显 示 3 维 数据 十 分 困难 ， 因 此 ，CIE 设计 了 基于 图 4-10 
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的 曲线 所 暗含 的 (X，Y，2Z) 三 元 组 的 值 的 二 维 图 。 对 每 个 可 见 的 波长 ， 这 三 条 曲线 值 给 出 的 X、 
Y. Z 的 值 组 成 了 人 类 所 能 看 到 的 部 分 。 然 而 ， 从 式 〈4.6) 我 们 观察 到 ， 增 加 亮度 〈 增 大 灯泡 的 
瓦特 数 ) 会 为 三 色 值 增加 了 一 个 标量 倍数 。 因 此 ， 通 过 某 种 办 法 得 到 向 量 (X, Y, 2) 的 量 级 来 
设计 一 个 二 维 图 是 有 意义 的 。 在 CIE 系统 中 ， 这 通过 除 以 XtY+Z 来 实现 ; 
x= XKX+Y+Z) 
=Y(X+Y+Z) (4.7) 
z=ZMX+Y+Z) 


这 充分 地 说 明 (x，y，z) 外 的 其 他 值 是 多 余 的 ， 因 为 我 们 有 


x+y+z=tY+2 =1 (4.8) 
X+Y¥+Z 
所 以 ， 
z=l-x-y (4,9) 


fix, y 称 为 色 度 (chromaticity). 

我 们 将 每 个 三 色 向 量 (X，Y，2Z) 投影 到 点 (1，0，0)、(0，1，0) 和 (0，0，1) 形成 的 平 
面 上 。 通 常 ， 这 个 平面 被 视 为 投影 到 z=0 平面 ， 作 为 项 点 (x，y) 值 为 (0，0)、(1，0)、(0，1) 
的 三 角形 的 内 部 点 的 集合 。 

图 4-11 显示 了 单 色光 的 点 的 轨迹 ， 画 在 这 个 CIE“ 色 度 图 ”上 。 沿 着 “ 马 脚 ” 底 部 的 直线 
与 可 见 光 谱 〈400 和 700nm， 从 蓝 色 经 绿色 到 红色 ) 极限 处 的 点 相交 。 这 条 直线 称 作 紫色 线 〈line 
of purple)。“ 马 脚 ” 本 身 称 为 光谱 轨迹 (spectrum locus)， 它 显示 了 在 每 个 可 见 波 长 处 的 单 色 光 
BY (x, y) 色 度 值 。 

颜色 匹配 曲线 的 作用 是 把 相同 的 值 〈 每 条 曲线 下 的 区 域 对 每 个 xz(4) IAS ZA 是 相同 的 ) 
加 起 来 。 因 此 对 于 一 个 所 有 光谱 能 量 分 布 值 都 为 1 的 白色 光源 (“等 能 量 白色 光 ”)， 其 色 度 值 是 
(1/3，1/3)。 图 4-11 显示 了 图 中 间 的 白 点 。 最 后 ， 因 为 我 们 必须 有 x,y<1 和 x+y<<1， 所 以 所 有 
可 能 的 色 度 值 都 必须 位 于 图 4-11 的 虚 对 角 线 之 下 。 

注意 ， 可 以 选择 不 同 的 “白色 ”光谱 作为 标准 光源 。CIE 定义 了 这 样 一 些 光源 ， 比 如 光源 
A, JEU C 和 标准 日 光 D65 和 D100. 它们 都 可 显 
示 为 CIE 图 上 略 有 不 同 的 白 点 ，D65 的 色 度 等 于 
(0.312713，0.329016 )， 而 光源 C 具有 色 度 值 
(0.310063, 0.316158). Æ 4-12 显示 了 这 些 标准 
光源 的 光谱 能 量 分 布 曲线 。 光 源 A 具有 白炽 光 的 
特征 ， 有 钨 丝 灯 的 典型 光谱 能 量 分 布 ， 并 且 非 常 
红 。 光源 C 是 早期 的 表现 日 光 的 尝试 , 而 DOS 和 
D100 分 别 是 中 间 范 围 和 带 蓝 色 的 通常 使 用 的 日 
光 。 图 4-12 也 显示 了 标准 荧光 光源 尖 钉 似 的 光谱 
能 量 分 布 ， 这 种 光源 被 称 为 F2[2]。 

在 光谱 轨迹 上 具有 色 度 的 颜色 表现 出 “ 纯 ” 
色 。 它 们 是 最 “饱和 ”的 ， 想 一 想 茧 有 墨水 的 纸 











0.0 0.2 0.4 0.6 0.8 1.0 


变 得 越 来 越 饱 和 。 相 比 而 言 ， 靠 近 白 点 的 颜色 更 x 
加 不 饱和 。 图 4-11 CE 色 度 图 
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光谱 能 量 分 布 











图 4-12 标准 光源 的 光谱 能 量 分 布 


对 于 两 种 光 的 混合 , 结果 色 度 位 于 两 种 光 的 色 度 的 连 线 上 , 这 是 色 度 图 一 个 非常 有 用 的 性 质 。 
为 严谨 起 见 ， 我 们 没有 说 对 所 有 颜色 都 是 这 样 ， 仅 仅 是 对 光 有 上 述 结论 。 原 因 是 ， 我 们 至 今 还 坚 
持 颜色 混合 的 加 法 additive) 模型 。 这 个 模型 对 于 光 效 果 很 好 ， 也 适用 于 另 一 种 特殊 的 情况 ， 即 
显示 器 颜色 。 然 而 ， 下 面 我 们 将 看 到 ， 上 述 结论 对 于 打印 机 颜色 〈 见 4.2.5 节 ) 不 成 立 。 

对 于 CIE 图 中 的 任何 色 度 ， 主 波长 是 光谱 轨迹 与 连接 白 点 和 指定 颜色 的 直线 延长 线 的 交点 。 
《对 于 与 紫色 线 相交 的 颜色 ， 一 个 主 波长 的 补 为 反 向 延长 该 线 通 过 白 点 。) 兄 一 个 有 用 的 定义 是 给 
定 颜色 的 补 色 是 通过 白 点 的 线 上 的 所 有 颜色 。 最 后 ， 色 纯度 (excitation purity) 是 从 白 点 到 给 定 
颜色 的 距离 与 主 波长 的 比值 ， 用 百分数 表示 。 


4.1.9 彩色 显示 器 规范 


如 果 RGB 电子 枪 都 在 其 最 高 能 量 状态 被 激活 ， 彩 色 显示 器 在 一 定 程 度 上 由 要 求 的 白 点 色 度 
确定 。 事 实 上 ， 我 们 可 能 使 用 伽 马 校正 值 RR、G'、B。 如 果 我 们 把 电压 规范 化 到 0~1， 那 么 我 们 
希望 显示 器 能 在 R=G'=B=1 时 显示 要 求 的 白 点 (省 略 了 从 文件 中 的 值 到 电压 值 的 转换 , 仅仅 陈述 
了 像素 颜色 值 规范 化 到 最 大 值 1)。 

然而 ， 显 示 器 屏幕 内 的 荧光 涂料 具有 自己 的 色 度 ， 所 以 乍 一 看 ， 我 们 似乎 不 能 控制 显示 器 的 
白 点 。 然 而 ， 可 以 通过 设 定 每 个 电子 枪 的 增益 控制 ， 使 它们 达到 出 现 白 点 所 要 求 的 最 大 电压 来 修 
正 这 个 问题 。 | 

目前 ， 已 经 有 一 些 显 示 器 规范 。 显 示 器 规范 由 国定 的 、 制 造 商 指定 的 显示 器 荧光 层 的 色 度 和 
所 需 的 标准 白 点 组 成 。 表 4-1 显示 了 三 个 常用 规范 中 的 相应 值 。NTSC 是 标准 的 北美 和 日 本 的 规 
范 。SMPTE 是 它 的 更 高 版 本 ， 其 中 光源 由 光源 C 改 为 光源 D65， 而 荧光 层 色 度 与 现代 机 器 更 加 
吻合 。 数字 视频 使 用 的 规范 与 北美 的 规范 类 似 。 EBU 系统 从 欧洲 广播 联盟 (European Broadcasting 
Union) 派生 而 来 ， 并 用 于 逐 行 倒 相 (Phase Alternating Line, PAL) 和 顺序 传送 与 存储 彩色 电视 
RR (System Electronique Couleur Avec Memoire, SECAM) 视频 系统 中 。 


$ 4-1 ikili aiaa 






0.155 
0.15 
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4.1.10 超 色 域 的 颜色 

现在 ， 我 们 暂 不 考虑 伽 马 校正 ， 那 么 显示 颜色 的 一 个 重要 问题 是 怎样 产生 与 设备 无 关 的 
(device-independent) 颜色 ， 通 过 用 与 设备 相关 《device-dependent〉 的 颜色 值 RGB RIE (x, y) 
色 度 值 来 协商 解决 。 

对 于 每 一 对 (x, y), 我 们 都 希望 找到 RGB 三 元 组 给 出 具体 的 (x, y, z), 因此 , 利用 z=1-x-y 
得 到 光源 的 z 值 ， 并 且 解 决 了 制造 商 指定 色 度 的 RGB。 因 为 如 果 我 们 没有 绿色 或 者 蓝 色 值 ( 即 文件 
值 为 0)， 那 么 我 们 只 能 看 红色 光源 的 色 度 ， 我 们 通过 下 面 公式 组 合成 RG、8 的 非 零 值 ; 

R 
G 
B 


Xr Xg Xo 
yr Ye Yb 
Zr Zg Zb 


wR OG, y) 是 指定 的 而 非 从 上 式 推导 得 到 的 ， 我 们 就 要 把 光源 C y, z) 值 的 矩阵 转 置 ， 
来 得 到 正确 的 RGB 值 ， 以 获得 要 求 的 色 度 。 

但 是 ， 如 果 RGB 数值 中 的 某 个 值 为 负 会 怎样 呢 ? 这 种 问题 在 人 们 能 够 感知 到 颜色 ， 但 这 种 
颜色 在 所 使 用 的 设备 上 不 能 被 表现 的 情况 下 出 现 。 这 时 ， 我 们 说 该 颜色 是 超 色 域 (out of gamut) 
的 ， 因 为 所 有 能 显示 的 颜色 集合 组 成 了 该 设备 的 色 域 范围 。 

处 理 这 种 情形 的 一 个 办 法 是 仅 使 用 最 接近 的 色 域 内 的 可 用 颜色 。 另 一 种 常用 方法 是 选择 最 接 
近 的 补 色 。 

对 一 个 显示 器 ， 每 种 可 以 显示 的 颜色 都 位 
于 一 个 三 角形 中 。 这 是 从 Grassman 定律 得 出 
的 ， 它 描述 了 人 类 的 视觉 ， 说 明 “颜色 匹配 是 
线性 的 ” 这 意味 着 由 三 原色 组 成 的 光线 的 线性 
组 合 仅 是 用 来 使 组 合 乘 上 那些 原色 的 权 值 的 线 
性 集合 。 也 就 是 说 ， 如 果 我 们 用 从 三 个 光源 发 
出 的 三 条 光线 的 线性 组 合 来 组 成 颜色 ， 我 们 仅 
能 从 这 些 光 线 的 凸 集 〈 我 们 将 在 下 面 看 到 ， 对 
于 打印 机 ， 这 个 凸 面 不 再 成 立 ) 一 一 这 种 情况 


x 


=1y 
Zz 


(4.10) 


























下 是 一 个 三 角形 一 一 来 创造 颜色 。 

图 4-13 显示 了 CIE 图 中 的 NTSC 系统 的 三 
角形 色 域 。 假 设 这 个 小 三 角形 表现 一 个 要 求 的 00 02 04 06 O8 Lo 
颜色 ， 则 在 NTSC 显示 器 色 域 边界 上 的 点 是 连 x 
接 要 求 颜色 与 白 点 的 线 与 形成 三 角形 边界 的 4-13 用 色 域 内 颜色 近似 色 域 外 颜色 。 三 角形 显 
最 近 的 线 的 交点 。 示 的 色 域 外 颜色 用 从 那个 颜色 到 白 点 的 线 与 设备 
41.11 HAKE 色 域 的 边界 的 交点 近似 


我 们 至 今 所 做 的 工作 中 的 一 个 不 足 之 处 是 我 们 要 把 三 色 值 XYZ 映射 到 设备 的 RGB， 而 不 仅 
是 处 理 色 度 xyz。 区 别 在 于 XYZ 值 包含 颜色 的 量 级 。 我 们 也 要 在 R、G、B 都 达到 最 大 值 时 ， 得 到 
白 点 。 

但 是 ， 表 4-1 会 产生 错误 的 值 。 考 虑 SMPTE 规范 ， 设 R=G=B=1， 则 XX 的 值 等 于 x AMA, 
或 者 说 是 0.630+0.310+0.155=1.095. ALLA, Y 5 Z 的 值 结果 为 1.005 10.9. FA CX+¥+Z) 来 除 ， 
得 到 色 度 (0.365，0.335) 而 非 要 求 的 值 (0.3127，0.3291)。 

要 修正 这 两 个 缺陷 ， 要 先 把 了 的 白 点 量 级 设 为 1: 
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Y (AA) =1 (4.11) 
现在 我 们 需要 找到 三 个 修正 因子 的 集合 ， 这 样 ， 如 果 用 三 个 电子 枪 所 得 到 的 增益 乘 上 这 些 值 ， 就 
可 以 得 到 R=G=B=] 处 的 白 点 XYZ 值 。 假设 式 (4.10) 中 的 光源 色 度 x,xy ,.… 的 矩阵 称 为 M， 把 修 
正 表示 为 对 称 和 矩阵 D=diag〈 di,d2,d3 )， 得 到 
XYZ white = MD(1,1,1)" (4.12) 
ZE O'TRAHRE. 
对 于 SMPTE 规范 ,我 们 有 (x, y, z) = (0.3127, 0.3291, 0.3582), RÆK UPIME, XYZwhite= 
(0.95045，1，1.08892)。 我 们 注意 到 D HV (1，1，1) 得 到 (qd;，d;，ds)'， 我 们 最 后 用 一 个 
指定 的 (dy, do dy)": 











X 0.630 0.310 won| 
Y | =/0.340 0.595 0.070 || dz (4.13) 
Z [anme [003 0.095 0.775 || ds 
利用 上 面 新 得 到 的 值 XYZwwiwe， 并 将 结果 转 置 ， 得 到 
(dy, dy, d3) = (0.6247, 1.1783, 1.2364) (4.14) 


4.1.12 XYZ 到 RGB 的 转换 


HAZE, M XYZ 到 RGB 的 3x3 的 变换 矩阵 为 
T=MD (4.15) 


X R 
Y |=T|G (4.16) 
Z B 


a 0.3653 oe 
T= 


对 于 不 是 白 点 的 点 ， 也 有 : 


对 于 SMPTE 规范 ， 我 们 有 : 


0.2124 0.7011 0.0866 
0.0187 0.1119 0.9582 


(4.17) 


把 上 式 展开 ， 得 到 
X =0.3935-R+0.3653-G+0.1916-B 
Y =0.2124-R+0.7011-G +0.0866-B (4.18) 
Z =0.0187-R+0.1119-G+0.9582-B 


4.1.13 FMD RE FER 

上 面 的 计算 假设 我 们 处 理 的 是 线性 信号 。 然 而 ， 我 们 很 有 可 能 遇 到 非 线性 的 伽 马 校正 的 R 
G’、B'， 而 不 是 线性 的 R、G、B。 

HEAT XYZ 到 RGB 变换 的 最 好 的 办 法 是 先 计算 转 置式 (4.16) 所 需要 的 线性 RGB 值 ， 然 后 通 
Wm BREA ARR Ss. 

然而 ,情况 通常 并 不 是 这 样 。 相 反 , 对 于 了 值 的 等 式 是 适用 的 但 是 用 于 非 线性 信和 号。 实际 上 ， 
对 于 靠近 白 点 的 颜色 ， 这 并 不 意味 着 有 许多 错误 。 对 于 精度 的 仅 有 让 步 是 给 从 RR. C PAEH 
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的 新 的 了 值 一 个 新 名 字 Y'。Y“ 的 重要 性 在 于 它 对 正在 讨论 的 像素 亮度 的 描述 符 进行 了 编码 9。 
最 常用 的 变换 方程 是 那些 用 于 原始 NTSC 系统 的 基于 光源 C 白 点 的 方程 ， 即 使 它们 过 时 了 。 
根据 上 面 列 出 的 方程 ， 再 结合 表 4-1 中 的 值 ， 我 们 得 到 下 面 的 变换 : 
X =0.607 - R +0.174- G +0.200- B 
Y = 0.299- R +0.587 -G +0.114-B (4.19) 
Z =0.000-R+0.066-G+1.116-B 


这 样 ， 对 非 线性 信号 的 编码 从 对 非 线性 信号 的 亮度 关联 的 编码 开始 : 
Y’ =0.299- R’ +0.587-G’+0.114- B’ (4.20) 


(4.3 节 更 详细 地 讨论 了 非 线性 信和 号 的 编码 。) 
4.1.14 Lx*a*b*(CIELAB) 颜 色 模 型 


上 面 关 于 怎样 最 好 地 使 用 我 们 可 以 利用 的 位 的 讨论 涉及 人 类 视觉 对 光线 变化 的 感受 的 问题 。 
从 心理 学 角度 来 看 ， 这 个 课题 事实 上 是 韦伯 定律 的 一 个 例子 ， 即 数量 越 大 ， 为 了 感知 区 别 就 必须 
有 更 多 的 变化 。 比 如 ， 当 你 抱 起 一 个 4 岁 的 妹妹 和 一 个 5 岁 的 弟弟 ， 分 辨 他 们 的 体重 相对 容易 。 
然而 ， 分 辨 两 个 重 物体 就 变 得 越发 困难 。 再 看 一 个 例子 ， 要 看 出 明亮 光线 中 的 变化 ， 它 们 之 间 的 
变化 必须 比 在 昏暗 光线 中 得 到 同样 效果 的 变化 大 许多 。 这 个 现象 的 一 个 规则 如 下 : 感知 到 的 同样 
变化 必定 是 相对 的 。 如 果 变 化 的 比率 是 相同 的 ， 则 感知 到 的 变化 L=100 
是 相同 的 ， 而 不 管 是 昏暗 的 光线 还 是 明亮 的 光线 。 经 过 研究 ， 从 
这 个 思想 派生 出 一 个 算法 雏形 ， 用 来 感知 相等 的 空间 单位 。 

然而 ， 对 于 人 类 视觉 ，CIE 得 到 了 该 规则 的 更 复杂 的 版 本 ， 
称 为 CIELAB 空间 。 在 该 空间 中 被 量化 的 仍然 是 感知 到 的 颜色 和 
亮度 的 不 同 。 这 是 很 有 意义 的 ， 因 为 从 实践 上 讲 ， 颜 色 的 区 别 对 
于 比较 源 颜色 和 目标 颜色 很 有 用 。 举 个 例子 ， 你 可 能 对 一 批 已 染 
色 的 布 是 否 与 原始 样品 的 颜色 相同 很 感 兴趣 。 图 4-14 显示 了 衡量 
颜色 变化 的 坐标 空间 的 3 维 立 体 剖 面 图 。 

CIELAB 〈 也 称 为 L*a*b*) 使 用 了 1/3 指数 定律 而 不 是 一 个 





黑 
算法 。CIELAB 使 用 三 个 值 ，[ 它 们 大 致 与 亮度 以 及 组 合 起 来 制造 L=0 
色彩 和 色调 的 一 对 值 对 应 〈 带 有 星 号 的 变量 ， 以 便 与 CIE 以 前 的 4-14 CIELAB 模型 。( 彩 色 
版 本 区 分 )。] 色 差 的 定义 为 : 插页 中 也 有 此 图 ) 
AE = JEP +a +0"? (4.21) 
其 中 


(1/3) 
r =ne% ) -16 
Y, 


n 


(1/3) (1/3) 
e-so -(F) | (4.22) 
Xn Y; 

¥ Tas EA (1/3) 

Ya Zn 


〇 ”在 文本 网 站 的 Color FAQ Xit, J YARA “luma”. 
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Xnv Yans Z, 是 白 点 的 XYZ 值 。 相 关 定 义 为 


色 度 =c = Ya’) +(b') 
afi =h = arctan Č; (4.23) 
a 


大 致 地 ，a# 的 最 大 值 和 最 小 值 与 红色 和 绿色 一 致 ， 而 b* 变 化 范围 是 黄色 到 蓝 色 。 色 度 (chroma) 
是 色彩 的 规模 ， 在 每 个 L* 亮 度 级 ， 更 加 多 彩 (更 饱和 ) 的 颜色 占据 了 CIELAB 固体 的 外 面部 分 ， 
而 更 褪色 〈 不 饱和 ) 的 颜色 靠近 中 央 的 无 色 轴 。 色 调 角 或 多 或 少 表达 了 大 多 数 人 说 到 “颜色 ”时 
的 意思 ， 即 ， 你 可 以 把 它 描述 成 红色 或 是 橙色 。 

这 种 色差 模型 是 研究 的 一 个 热门 领域 ， 并 且 基 于 人 类 感知 的 公式 过 剩 了 ( 另 一 个 与 CIELAB 
类 似 的 竞争 者 称 为 CIELUV 一 一 都 是 在 1976 年 发 明 )。 人 们 对 这 个 领域 产生 兴趣 ， 一 部 分 原因 是 
由 于 这 种 颜色 度量 影响 到 我 们 怎样 在 不 同 的 设备 和 网 络 界 限 上 对 光线 与 视觉 的 差别 建 模 [7]。 一 些 
高 端 产 品 〈 包 括 Adobe Photoshop) 使 用 了 CIELAB 模型 。 
4.1.15 ”其 他 颜色 坐标 系统 

还 有 其 他 一 些 坐标 系统 用 于 描述 人 类 能 感知 的 颜色 ， 但 是 在 应 该 还 是 不 应 该 使 用 伽 马 校正 有 
一 些 混 淆 。 这 里 ， 我 们 描述 的 是 与 设备 无 关 的 颜色 ， 即 基于 XYZ 并 且 和 人 类 所 见 到 的 事物 相关 。 
然而 ， 人 们 通常 把 RGB AR, C. BURR. 

其 他 的 颜色 坐标 系统 包括 CMY (将 在 4.2.2 节 中 介绍 )、HSL ( 即 色调 、 饱和 度 和 亮度 )、HSV 
《 即 色调 、 饱 和 度 和 值 )、HSI ( 即 色 调 、 饱 和 度 和 亮度 )、HCI ( 即 色调 、 色 度 和 亮度 )、HVC CE 
色调 、 值 和 色 度 ) 以 及 HSD 即 色调 、 饱 和 度 和 上 暗 度 ) 等 。 
4.1.16 ” 茂 塞 尔 颜色 命名 系统 

颜色 的 精确 命名 (naming) 也 是 需要 重视 的 一 个 问题 。 一 个 经 受 时 间 考 验 的 标准 系统 由 蒙 
塞 尔 (Munsell) 在 20 世纪 初 设计 ， 并 且 进 行 过 多 次 修改 (最 后 一 个 版 本 被 称 为 Munsell 
renotation) [8]。 其 思想 是 ， 建 立 一 个 近似 的 感知 规范 系统 ， 它 用 三 个 坐标 轴 来 讨论 和 指定 颜 
色 。 这 些 坐 标 轴 是 值 ( 黑 - 白 )、 色 调和 色 度 。 值 被 分 成 9 阶 ， 色 调 围 绕 一 个 圆 有 40 阶 ， 色 度 
(饱和 度 ) 的 最 大 阶 数 为 16。 圆 的 半径 随 值 而 变化 。 

该 系统 希望 对 任何 用 户 ， 包 括 艺术 家 ， 使 用 不 变 的 颜色 规范 。 蒙 塞 尔 公司 销售 绘画 所 用 的 上 
色 书 ， 它 们 由 关于 绘画 的 公式 组 成 (这 些 书 相当 贵 )。 据 称 ， 这 是 最 常用 的 规范 。 


4.2 图 像 中 的 颜色 模型 


现在 ， 我 们 已 经 介绍 了 颜色 科学 ， 以 及 与 用 于 图 像 显 示 的 颜色 有 关 的 一 些 问题 。 但 是 颜色 模 
型 和 坐标 系统 怎样 真正 地 用 于 存储 、 显 示 和 打印 图 像 呢 ? 

4.2.1 CRT 显示 器 的 颜色 模型 

从 第 3 章 可 知 ， 我 们 通常 以 RGB 形式 存储 颜色 信息 。 然 而 ， 前 面 的 章节 中 介绍 过 ， 这 样 一 
个 坐标 系统 实际 上 是 设备 相关 的 。 

对 于 足够 精确 的 颜色 ， 我 们 希望 每 个 颜色 通道 使 用 8 位 。 实 际 上， 我们 不 得 不 为 每 个 通道 使 
FLAY 12 位 来 避免 深 色 图 像 区 域 的 混淆 现象 一 一 由 伽 马 校正 导致 的 轮 廊 结 合 , 因为 伽 马 校正 会 导 
致 可 利用 的 整数 级 更 少见 练习 7)。 

对 于 计算 机 图 形 产生 的 颜色 ， 我 们 把 与 亮度 成 比例 的 整数 存储 在 帧 缓存 里 面 。 然 后 ， 在 帧 组 
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F5 CRT 之 间 需 要 有 一 个 伽 马 校正 查找 表 。 如果 在 存 入 帧 缓存 之 前 ， 伽 马 校正 用 在 还 没有 被 量化 
成 整数 的 浮 点 数 上 ， 那 么 我 们 只 能 够 使 用 8 位 /通道 ， 并 且 也 能 避免 轮廓 结合 现象 。 
4.2.2 RIE: CMY 颜色 模型 

到 现在 ， 我 们 已 经 仅 有 效 地 处 理 了 加 性 颜色 (additive color)。 也 就 是 说 ， 当 两 条 光线 照射 到 
一 个 目标 上 时 ， 它 们 的 颜色 会 加 起 来 ， 当 CRT 屏幕 上 的 两 个 光源 被 打开 ， 它 们 的 颜色 也 会 相 加 。 
例如 ， 红 色光 源 十 绿色 光源 会 产生 黄色 光 。 

但 是 对 于 沉积 到 纸 上 的 墨水 ， 则 会 发 生 相 反 的 情况 ， 黄 墨水 从 白色 光源 中 减 去 蓝 色 ， 反 射出 
红色 和 绿色 ， 这 就 是 为 什么 它 看 起 来 是 黄色 的 原因 ! 

所 以 ， 不 用 红色 、 绿 色 、 蓝 色 这 几 种 原色 ， 我 们 需要 一 红色 、 一 绿色 和 一 蓝 色 的 原色 ， 即 需 
要 减 去 R、G 或 B。 这 些 减 性 原色 是 青 〈Cyan、C)、 洋 红 (Magenta, M) 和 黄色 (Yellow、YY)。 
图 4-15 显示 了 系统 RGB 和 CMY 是 怎样 联系 的 。 在 加 性 (RGB) 系统 中 ， 黑 色 是 没有 光 ，RGB= 
(0，0，0)。 在 减 性 CMY 系统 中 ， 黑 色 是 使 墨水 的 C=M=Y=1 减 去 所 有 的 光线 产生 的 。 





黑 (0, 0, 0) AC, 1, 1) 白 (0, 0, 0) 黑 (1, 1,1) 
RGB 立方 体 CMY 立方 体 


图 4-15 RGB 和 CMY 颜色 立方 体 (彩色 插 页 中 也 有 此 图 》 
4.2.3 M RGB 到 CMY 的 转换 


考虑 墨水 在 减 性 系统 中 的 作用 ， 我 们 能 创建 的 最 简单 模型 是 指定 以 怎样 的 密度 把 墨水 放 在 纸 
上 ， 来 产生 特定 的 RGB 颜色， 如 下 所 示 : 
C 
gi 
Y B 


R C 
Gl=|1|-| M (4.25) 
B Y 

4.2.4 ”消除 不 足 颜 色 : CMYK 系统 


通常 认为 C、M 和 了 混合 起 来 是 黑色 。 然 而 ， 它 们 更 常 被 混合 成 土 褐色 我 们 都 从 幼儿 园 开 
始 就 知道 这 个 结论 )。 真 正 “ 黑 色 ” 的 黑 墨 水 实际 上 比 用 混合 彩色 墨水 来 制作 黑 黑 水 便宜 ， 所 以 





1| IR 
1 


1 


(4.24) 














其 逆 变 换 是 


1 
1 
1 
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一 个 简单 的 产生 准确 的 打印 机 颜色 的 方法 是 : 计算 三 色 混合 中 为 黑色 的 部 分 ， 从 颜色 比例 中 去 除 
之 ， 用 真正 的 黑色 加 回来 。 这 被 称 为 “消除 不 足 颜色 ”。 
因而 新 的 墨水 规范 是 
K =min{C,M,Y} 
c C-K 
M|>|M-K 
Y Y-K 


(4.26) 














图 4-16 描述 了 组 合 原色 产生 的 颜色 组 合 ， 有 两 种 情况 ， 加 性 颜色 (通常 使 用 RGB 来 组 成 颜 
E) 和 减 性 颜色 (通常 用 CMY 和 CMYK 来 组 成 颜色 )。 





a) RGB 用 于 指定 加 性 颜色 b) CMY 用 于 指定 减 性 颜色 
图 4-16 加 性 和 减 性 颜色 (彩色 插页 中 也 有 此 图 ) 


4.2.5 打印 机 色 域 


在 打印 过 程 中 ， 打 印 机 把 透明 的 墨水 层 放置 到 底层 (通常 是 白色 ) 上 。 如 果 我 们 希望 青色 墨 
水 与 缺 红色 的 颜色 真正 相等 ， 则 我 们 的 目标 是 产生 能 够 完全 吸收 红色 光 但 能 完全 通过 绿色 和 蓝 色 
光 的 墨水 。 遗 憾 的 是 ， 这 种 “ 块 染 色 ” 仅 是 近似 值 。 在 实际 中 ， 传 输 曲线 对 C、M 和 YY 墨水 有 交 
登 。 这 导致 了 颜色 通道 间 的 “ 色 度 亮度 干扰 ”和 预测 打印 时 可 利用 颜色 的 困难 。 
图 4-17a 显示 了 块 染色 的 典型 传输 曲线 ， 图 4-17b 显示 了 使 用 这 种 墨水 的 彩色 打印 机 的 结果 
色 域 。 我 们 看 到 ， 色 域 比 NTSC ERER, HILA. 




















块 染色 块 染色 范围 + NTSC 范围 
= ee 9 
3 3 
eS 3 
加 > 
+t + 
© © 
o Q 
© © 
Q sees © 
oL 一 - > 
500 0.0 0.2 04 06 0: 0.8 1.0 
波长 
a) 块 染色 的 传输 曲线 b) 光谱 轨迹 、 三 角形 的 NTSC "ee 


图 4-17 
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这 种 色 域 起 源 于 用 于 打印 机 墨水 的 模型 。 传 输 与 光学 密度 (optical density) 相关 ， 即 D=-inT, 
这 里 了 是 图 4-17a 中 的 一 条 曲线 。 颜色 是 由 墨水 的 DD 的 线性 组 合 构 成 的 , 而 D 是 三 种 权 值 分 别 为 
wi(i =1,2,3) 的 密度 的 线性 组 合 ，wi 的 范围 从 0 到 没有 模糊 的 最 大 人 允许 值 之 间 。 

因此 ， 总 的 传输 了 是 三 个 带 权 密度 的 指数 的 乘积 一 光线 通过 透明 染料 的 夹层 时 会 有 指数 衰 
减 。 从 纸 面 〈 或 是 通过 一 小 块 胶片 ) 反射 的 光 为 7E =e-?E ， 这 里 EE 是 照明 光 。 用 式 〈4.6) TE 
成 图 4-17b 中 的 打印 机 色 域 。 

打印 机 色 域 的 中 心 是 白 - 黑 轴 ， 六 个 边界 顶点 对 应 C、M、Y 和 满 密度 的 三 个 组 合 CM、CY、 
MY。 墨 水 密度 较 小 的 部 分 在 图 的 中 间 。 所 有 墨水 满 密度 对 应 图 中 心 的 黑 / 白 点 ， 该 点 用 “。” 标 
记 。 对 于 这 些 特殊 的 墨水 ， 该 点 具有 色 度 (x y) = (0.276, 0.308). 


43 视频 中 的 颜色 模型 
4.3.1 视频 颜色 转换 


处 理 数字 视频 中 颜色 的 方法 大 部 分 是 从 以 前 对 电视 颜色 编码 的 方法 中 衍生 来 的 。 通 常 地 ， 亮 
度 的 一 些 版 本 与 单个 信号 中 的 颜色 信息 相 结合 。 比 如 ， 与 式 〈4.19) 类 似 的 矩阵 变换 方法 YIQ， 
用 来 在 北美 和 日 本 传输 电视 信号 。 这 种 方法 也 用 于 在 这 些 国家 的 VHS 视频 磁带 编码 中 ， 因 为 视 
频 磁带 技术 也 使 用 YIQ。 | 
在 欧洲 ， 视 频 磁带 使 用 PAL 或 者 SECAM 编码 ， 它 以 使 用 YUV 的 矩阵 变换 的 电视 为 基础 。 
最 后 ， 数 字 视 频 大 多 使 用 YCbCr 矩阵 变换 ， 它 于 YUVe 最 接近 。 
4.3.2 YUV 颜色 模型 本 
最 初 ，YUV 编码 用 于 PAL 模拟 视频 中 。YUV 的 一 个 版 本 现在 用 于 数字 视频 的 CC 了 ;601 标 
准 中 o B 可 、 
首先 ， 它 对 一 个 等 于 式 〈4.20) 中 的 Y 的 亮度 信号 (对 于 爷 马 校正 信号 ) 编码 〈 回 想 一 下 ， 
7 通常 被 称 为 “luma”)。luma YS CE 的 经 伽 马 校正 的 亮度 值 7 相似 ， 但 不 完全 相等 。 在 多 媒体 
中 ， 用 户 通常 模糊 这 个 区 别 ， 简 单 地 把 两 者 都 看 成 亮度 。 
同 量 级 或 亮度 一 样 ， 我 们 需要 丰富 的 颜色 标尺 ， 并 且 色 度 会 涉及 颜色 和 同一 亮度 的 白色 之 间 
的 差别 。 这 可 用 色差 U、V 来 表现 : 


U =B’-Y’ 
VaR -y’ (4.27) 
从 式 (4.20). A (4.27) 可 得 : 
Y’| [0.299 0.587 0.144 |R 
U |=| -0.299 -0.587 0.886 || G’ (4.28) 
V 0.701 -0.587 —0.144 || B’ 




















我 们 通过 转 置式 (4.28) WER, MA (Y, U, V) 得 到 R, G’, BY). 


注意 ， 对 于 R=G'=B' 的 灰 度 像素 ， 亮 度 等 于 相同 灰 度 值 的 尺 ， 因 为 式 〈4.20) 中 的 系数 和 


为 0.299+0.587+0.114=1.0. SFRE “BAA” 图 像 ， 色 度 (U, V) 是 0， 因 为 式 (4.28) 中 
后 两 行 的 系数 和 为 0。 彩色 电视 能 仅 使 用 Y 信 和 号 e 在 黑白 电视 上 显示 。 为 了 向 后 兼容 , 彩色 电视 通 


O 亮度 - 色 度 颜色 模型 (YIQ、YUV、YCbcr) 被 证 明 是 有 效 的 。 因 此 ， 它 们 也 被 了 PEG 和 JPEG 2000 这 样 的 图 像 压缩 标 
ERA. 


O ”需要 注意 的 是 ， 许 多 作者 和 用 户 只 使 用 Y， 没 有 加 “ ”号 ， 其 义 〈 可 能 ) MYHR. 
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过 指定 带 Wa SRE A fa BS aS. 

最 后 ， 在 实际 实现 时 ， 为 拥有 更 方便 的 最 大 值 和 最 小 值 ，U 和 V 被 重新 调节 。 对 模拟 视频 来 
Bi, 每 个 U 或 V 都 被 限制 在 Y'[9] 的 最 大 值 的 +0.5 倍 范围 内 。( 注 意 ,， 真实 电压 是 在 男 一 个 没有 规 
范 化 的 范围 内 一 一 对 模拟 电压 ，Y“ 通 常 是 在 0~700mV 的 范围 内 ， 所 以 重新 调整 后 的 U 和 V (在 那 
个 上 下 文中 称 为 Pp 和 Pr) 的 范围 为 4350mV 。) 

这 种 缩放 反映 了 怎样 处 理 分 量 视频 一 一 三 个 分 离 的 信号 。 然 而 ， 对 于 处 理 复合 (composite) 
视频 ， 即 我 们 想 用 YY’, UM Y 一 次 组 合成 单独 的 信号 ， 在 -1/3 到 +4/3 范围 内 包含 复合 信号 量 级 
Y“ 土 VU2 +V? 是 方便 的 ， 这 样 它 将 保持 在 记录 设备 的 幅度 限制 范围 内 。 为 达到 这 个 目的 UAV 


重新 调整 为 : 
WA GR (4.29) 
V =0.877283(R -7 了 ) 
( 乘 数 有 时 四 舍 五 入 为 三 位 有 效 数字 )， 则 色 度 信号 由 U 和 V 组 成 为 复合 信号 : 
C =U -cos(a@t)+V -sin(@t) (4,30) 


这 里 w 代 表 NTSC 颜色 频率 。 
从 式 (4.29) 我 们 注意 到 , 0 并 非 U M V 的 最 小 值 。 根据 真实 的 正 的 颜色 , 在 RGB 立方 体 中 ， 
U 大 致 从 蓝 (U>0) BIB CU<0), V 大致 从 红 (V>0) 到 蓝 绿 (V<0)。 
图 4-18 显示 了 一 幅 典 型 彩色 图 像 分 解 为 Y"、U 和 VV 分量 的 结果 。 因 为 UU 和 V 都 会 为 负 ， 所 
以 这 幅 图 实际 上 是 真实 信号 经 移动 、 重 新 调整 后 的 版 本 。 





a) 原始 彩色 图 像 b) Y’ c) U 
图 4-18 彩色 图 像 的 Y'UV 分 解 〈 彩 色 插 页 中 也 有 此 图 ) 


因为 眼睛 对 于 黑白 变换 最 为 敏感 ， 对 于 空间 频率 (例如 ， 与 看 细 的 彩色 线条 相 比 ， 眼 睛 对 细 
的 灰 度 线条 的 格子 看 得 更 加 清楚 )， 在 模拟 PLA 信和 号 中 仅 分 配 了 1.3MHz 的 带宽 给 U 和 V， 而 将 
5.5MHz 的 带宽 留 给 有 了 信号。 实际 上 ， 为 彩色 电视 传输 的 颜色 信和 号 是 非常 斑 驱 的 。 
4.3.3 YIQ 颜色 模型 


YIQ〔 实 际 上 是 YQ) 用 于 NTSC 彩色 电视 广播 中 。 灰 度 像 素 产生 零 U, 0) 色 度 信号 。 这 

些 名 字 的 原始 含义 来 源 于 模拟 信和 号 的 组 合 ，7 表 示 同 相 色 度 ，C 表示 积分 色 度 ， 而 现在 可 以 忽略 了 。 

我 们 认为 ， 虽 然 忆 和 Y 的 定义 更 简单 ， 但 不 能 捕获 到 人 类 视觉 灵敏 度 从 最 多 到 最 少 的 层次 。 虽 

然 它们 很 好 地 定义 了 色差 ， 但 它们 不 能 完全 与 人 类 感知 的 颜色 灵敏 度 相 符 。NTSC H IA O 来 代替 。 
YIQ 是 YUV 的 一 个 版 本 ， 使 用 相同 的 Z， 但 是 乙 和 旋转 了 33°: 

I = 0.877283(R’ —Y’)cos33° —0.492111(B’—Y’)sin 33° 

Q = 0.877283(R’ — Y’) sin 33° + 0.49211 1(B’ —Y’)cos 33° 


于 是 产生 如 下 的 矩阵 变换 : 


(4.31) 
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Y 0.299 0.587 0.144 R 
I |=|0.595879 —0.274133 -0.321746 |=| G’ (4.32) 
Q 0.211205 -0.523083 0.311878 B’ 




















1 大约 在 橙 - 蓝 方向 ，@C 大 致 与 紫 - 绿 方向 对 应 。 

图 4-19 显示 了 上 面 提 到 的 彩色 图 像 分 解 为 
YIQ 分 量 的 效果 。 这 里 只 显示 了 和 0 AE, AW 
Y' 分 量 与 图 4-19 中 的 相同 。 

对 于 这 幅 图 像 ， 大 多 数 能 量 都 在 Y' 分 量 中 被 
捕获 ， 它 是 很 典型 的 。 然 而 ， 在 这 种 情况 下 ，YIQ 
分 解 对 于 形成 图 像 的 层次 序列 更 有 帮助 : 对 于 8 
位 Y“ 分 量 ， 均 方 根 CRoot-Mean-Square, RMS) fË 更 
为 137 (255 为 最 大 可 能 值 )。U、V 分 量具 有 均 方 图 4-19 彩色 图 像 的 7 和 O 分量 
根 值 43 和 44。 对 于 YIQ 分 解 ,7 和 O 分 量具 有 均 方 根 值 42 和 14， 所 以 它们 更 好 地 区 分 了 颜色 Mos 
的 优先 次 序 。 最 初 ，NTSC 分 配 4.2MHz 4 Y, 1.5MHz 给 I, 0.6MHz 给 Q. MWE, 1A o 都 得 到 | 2 
了 1.0MHz。 106 


4.3.4 YCbCr 颜色 模型 
分 量 ( 三 路 信号 ， 量 化 ) 数字 视频 的 国际 标准 是 官方 的 推荐 ITU-R BT.601-4 CERA 
“Rec.601”)。 这 个 标准 使 用 另 一 个 颜色 空间 YCbCr。YCbCr 变换 用 于 JPEG KREAN MPEG 视 
频 压缩 ， 与 YUV 变换 紧密 相关 。YUYV 通过 调整 ，C 成 为 U， 但 是 系数 为 0.5 乘 以 B。 在 一 些 软 
件 系统 中 ，C， 和 C; 也 被 移动 ， 这 样 其 值 在 0~1 之 间 。 这 就 产生 出 下 面 的 等 式 : 
Cy = ((B’-Y’)/1.772) +0.5 











Sie. (4.33) 
C, =((R’-Y’)/1.402) +0.5 
将 其 展开 ， 我 们 有 
Y’ 0.299 0.587 0.144 I[R] fo 
G +s 0.331264 0.5 中 0.5 (4.34) 
Cc. 0.5 0.418688 -0.081312|| B | | 0.5 











然而 ， 在 实践 中 ，Rec.601 指定 8 位 编码 ，Y 的 最 大 值 仅 为 219， 最 小 值 为 十 16。 小 于 16 和 
大 于 235 的 值 ， 表 示 为 关上 空间 (headroom) 与 脚下 空间 (footroom)， 保 留 起 来 用 于 其 他 用 途 。 
Cs 和 Cr 的 变化 范围 为 +112， 偏 移 值 为 十 128〈 换 句 话 说， 最 大 值 为 240， 最 小 值 为 16)。 如 果 R, 
G'、B' 是 [0，+1] 间 的 浮 点 数 ， 我 们 通过 变换 [9] 得 到 [0..255] 的 站、Cs 和 Cr: 


y’ 65.481 128.553 24.966 || R'| |16 
Cy |=| -37.797 -74.203 112 G’ |+| 128 (4.35) 
C; 112 -93.786 —18.214 || B’| |128 


























实际 上 ， 输 出 范围 也 被 限制 在 [1，254]， 因 为 Rec.601 同步 信号 通过 编码 0~255 给 出 。 
4.4 进一步 探索 


更 进一步 ， 颜 色 是 人 类 的 喜好 之 一 ， 并 且 它 是 使 多 媒体 如 此 引 人 注 目的 重要 属性 之 一 。 一 般 
说 来 ， 颜 色 领 域 最 常用 的 参考 是 经 典 手 册 [2]。 今 天 使 用 的 重要 技术 纲要 是 文集 [10]。 [107] 
本 书 网 站 上 第 4 章 的 Further Exploration 部 分 的 链接 包括 : 
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© WWW 上 介绍 伽 马 校正 详情 的 出 版 物 。 

。 用 于 WWW 应 用 的 新 的 sRGB 标准 颜色 空间 的 完整 规范 。 

。 颜色 变换 的 精彩 回顾 和 标准 颜色 FAQ. 

© 练习 颜 色 变换 函数 的 MATLAB 脚本 ( 它 是 MATLAB Image Toolbox 的 一 部 分 ): 将 标准 Lena 
图 像 转换 为 YIQ M YCbCr. 

。 新 的 颜色 空间 。 新 的 MPEG 标准 MPEG-7 (第 12 章 讨 论 ) 在 一 定 程度 上 回避 了 棘手 的 问 
题 ， 即 通过 包含 六 个 颜色 空间 在 一 个 标准 定义 中 使 用 哪个 颜色 空间 。 它 们 中 的 一 个 是 HSV 
空间 的 变 体 一 -HMMD 颜色 空间 ， 它 支持 一 个 简单 的 颜色 量化 (从 24 位 下 降 到 8 位 颜色 )， 
即 它 相 当 于 复杂 的 向 量 颜色 量化 〈 比 如 ， 考 虑 把 一 幅 图 像 中 的 颜色 更 仔细 但 是 代价 更 高 地 
映射 到 颜色 查找 表 中 )。 这 个 新 的 颜色 空间 也 许 会 变 得 重要 。 
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1. 解释 如 下 与 颜色 相关 的 术语 集合 : 
(a) 波长 
b) 颜色 等 级 
(Cc) 亮度 
(d) AÈ 
把 下 面 的 (更 加 模糊 地 陈述 的 ) 特性 与 上 面 的 术语 对 应 起 来 。 
Ce) 亮度 
Cf) 色调 
Cg) 饱和 度 
(h) 色 度 
2. 什么 颜色 是 户外 颜色 ? 举 个 例子 ， 你 认为 哪个 波长 的 峰值 能 量 对 应 红色 的 日 落 ? 对 于 蓝 色 天 
空 的 光线 呢 ? 
3. “LAB 色 域 涵盖 了 可 见 光谱 中 所 有 的 颜色 。” 
(a) 这 和 句 话 是 什么 意思 ? LAB 与 颜色 如 何 联系 ? 简要 描述 即 可 。 
(b) LAB 色 域 、CMYK 色 域 和 显示 器 色 域 的 大 致 相关 尺寸 是 多 少 ? 
4. 图 4-11 中 色 度 的 马 脚 曲线 来 源 于 哪里 ? 我 们 能 够 计算 它 吗 ? 对 找到 “光谱 轨迹 ”的 问题 写 一 
段 简短 的 伪 代 码 来 解决 。 提 示 : 图 4-20a 显示 了 图 4-10 的 颜色 匹配 函数 ， 它 是 用 三 维 空间 中 
的 点 集 来 画 的 。 图 4-20b 显示 了 这 些 点 映射 到 另 一 个 三 维 点 集 。 另 一 个 提示 : 试 着 编程 解决 这 
个 问题 ， 这 样 有 助 于 你 更 明白 地 解答 。 








Co “02 yg 02 ` 
a) 颜色 匹配 函数 b) 转换 后 的 颜色 匹配 函数 
图 4-20 
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5. 假设 我 们 使 用 一 个 新 的 颜色 匹配 函数 集合 A, (A). ZA), REA: 





在 这 个 系统 中 ， 等 能 量 白光 EA) 的 色 度 值 (x，y) 是 什么 ? 这 里 ， 对 所 有 波长 4，E(4)=1。 
请 解释 。 

6. (a) 假设 图 像 没 有 用 可 携 式 摄 像 机 进行 个 马 校正 。 一 般 来 说 ， 它 在 屏幕 上 显示 的 效果 如 何 ? 

(b) 如 果 对 于 存储 的 图 像 像素 ， 我 们 人 为 增加 输出 伽 马 值 (我 们 可 以 借助 Photoshop 做 到 这 一 
点 )， 将 会 发 生 什么 ? 对 图 像 会 产生 什么 影响 ? 

7. 假设 图 像 文件 的 值 在 每 个 颜色 通道 都 是 0~255。 如 果 对 于 红色 通道 ， 我 们 定义 尽 =R/255， HA 
通过 传 入 一 个 新 的 值 居 = RY” 到 显示 设备 来 执行 伽 马 校正 。 通 常用 整数 来 操作 。 假 设 我 们 通 [109] 
过 创造 0~255 间 的 新 的 整数 值 来 近似 计算 : 

(int)(255. (RY?°)) 
Ca) 评论 (粗略 地 ) 一 下 这 种 操作 对 实际 上 可 使 用 的 显示 级 别 有 何 影响 ? 提示: 用 某 种 语言 编 
写 代 码 将 有 助 于 你 更 好 地 理解 这 种 机 制 ， 并 且 能 让 你 容易 地 数 出 输出 级 别 。 
(b) 0~255 级 别 的 哪 一 端 更 多 地 受到 伽 马 校正 的 影响 , 是 低 端 (靠近 0) 还 是 高 端 (靠近 255)? 
为 什么 ? 每 一 端 受到 多 大 影响 ? 

8. 在 许多 计算 机 图 形 学 应 用 中 ， 伽 马 校正 仅 在 颜色 查找 表 
中 使 用 。 给 出 使 用 伽 马 校正 的 颜色 查找 表 的 头 五 项 内 容 。 
提示 : 编写 代码 将 省 去 你 使 用 计算 器 的 麻烦 。 

9. 设计 一 个 程序 来 产生 图 4-21， 显 示 符 合 SMPTE 规范 的 显 
示 器 的 色 域 。 

10. 色调 是 与 亮度 和 多 少 纯 白 被 加 入 无 关 的 颜色 。 我 们 能 够 
简单 定义 色调 为 R:G:B 的 比例 集合 。 假设 一 种 颜色 ( 比 
如 ， 一 种 RGB) 被 2.0 除 , 这 样 ， RGB 三 元 组 是 它 以 前 
值 的 0.5 倍 。 使 用 数字 值 解释 : 

(a) 如 果 伽 马 校正 在 除 以 2.0 之 后 颜色 被 存储 之 前 使 
用 ， 如 CRT 显示 设备 发 出 的 光线 的 R:G:B 比例 相 图 421 SMPTE 监视 器 色 域 





同 ,那么 更 深 的 RGB 是 否 具有 与 原来 相同 的 色调 ? (彩色 插页 中 也 有 此 图 ) 
(我 们 不 讨论 改变 我 们 感知 的 任何 心理 学 影响 ， 这 里 仅 关心 机 器 本 身 。) 110 


(b) 如 果 不 采 用 伽 马 校 正 ， 当 显示 时 ， 第 二 个 RGB 是 否 与 第 一 个 RGB 有 相同 的 色调 ? 
(co) 对 于 什么 颜色 三 元 组 ， 色 调 总 是 不 改变 ? 

11. 我 们 希望 制作 一 个 令 人 满意 的 易 读 图 形 。 假 设 我 们 把 背景 颜色 设 为 粉红 ， 那 么 前 端 文字 应 当 
使 用 什么 颜色 才能 够 最 易 读 ? 证 明 你 的 答案 。 

12. 为 了 使 最 后 的 打印 变 得 简单 ， 我 们 买 了 一 个 装 有 CMY 传感器 (与 RGB 传感器 相反 ) 的 照相 
机 (CMY 照相 机 是 实际 可 用 的 )。 
Ca) 大 致 画 出 反映 这 种 照相 机 的 灵敏 度 与 频率 的 光谱 曲线 。 
Cb) CMY 照相 机 的 输出 能 够 用 来 生成 普通 的 RGB 图 片 吗 ? 为 什么 ? 
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13. 彩色 喷 墨 打印 机 使 用 CMY 模型 。 当 青色 墨水 喷 酒 在 一 片 白 纸 上 时 : 
(a) 为 什么 青色 看 起 来 像 是 在 日 光 下 呢 ? 
(b) 在 蓝 色 光线 下 它 看 起 来 像 什么 颜色 ? 说 明 原 因 。 
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第 5 章 视频 中 的 基本 概念 


在 本 章 中 ， 我 们 将 介绍 和 视频 相关 的 基本 概念 。 数 字 视 频 压缩 技术 将 在 第 10 章 ~ 第 12 章 单 
独 讨论 。 

我 们 首先 介绍 视频 的 如 下 几 个 方面 的 内 容 ， 以 及 它们 是 如 何 对 多 媒体 应 用 产生 影响 的 ; 

。 视频 信和 号 的 类 型 

。 模 拟 视频 

。 数字 视频 

由 于 视频 信号 是 由 多 种 信号 源 所 产生 的 信号 组 成 ， 因 此 我 们 首先 从 信和 号 本 身 开 始 介 绍 。 模 拟 
视频 是 用 连续 的 (时 变 的 ) 信号 表示 的 ， 本 章 的 第 一 部 分 将 就 模拟 视频 如 何 量化 的 问题 展开 讨论 。 
数字 视频 是 用 一 系列 数字 图 像 表示 的 ， 本 章 的 第 二 部 分 将 就 相关 标准 和 规范 (例如 HDTV) 展开 
讨论 。 
5.1 视频 信号 的 类 型 

视频 信号 可 以 分 为 三 类 ; 分 量 视频 (Component video)、 复 合 视频 (Composite video) 和 S-video. 


5.1.1 分 量 视频 


高 端 视频 系统 例如 视频 工作 室 ) 分 别 使 用 三 路 视频 信号 来 表示 红 、 绿 、 蓝 三 种 图 像 平面 。 
这 类 视频 称 为 分 重视 频 。 这 种 系统 有 三 根 线 和 连接 器 ， 将 照相 机 或 其 他 设备 同 电视 或 显示 器 连 
接 起 来 。 

颜色 信号 并 不 局 限 在 RGB 分 色 上 。 正 如 在 第 4 章 中 所 讲 到 的 ， 我 们 可 以 通过 对 RGB 信和 号 的 
亮度 - 色 度 变换 来 生成 三 种 信号 一 一 例如 采用 YIQ 或 者 YUV 颜色 空间 变换 。 相 比 之 下 ， 大 多 数 计 
算 机 系统 采用 分 量 视频 ， 该 视频 包含 RGB 信号 的 分 离 信 号 。 

对 于 分 色 系 统 来 说 ， 由 于 在 这 三 种 不 同 的 信道 之 间 没 有 任何 色 度 、 亮 度 干扰 (不同 于 复合 视 
频 和 S-video 视频 )， 所 以 分 量 视 频 的 颜色 再 现 能 力 最 好 。 但 是 ， 分 量 视频 需要 更 多 的 带宽 和 三 种 
分 量 间 良 好 的 同步 机 制 。 

5.1.2 ”复合 视频 

在 复合 视频 中 ， 颜 色 〈 色 度 ) 信号 和 强度 (亮度 ) 信和 号 混合 成 一 个 的 载波 。 色 度 是 由 两 种 颜 
色 分 量 UMO, RE UMV) 构成 的 。 复 合 视频 用 于 彩色 电视 广播 ， 并 且 它 是 兼容 黑白 电视 广 
播 的 。 

在 NTSC 电视 中 例如 在 [1] 中 )，/ 和 o 合并 为 色 度 信 号 ， 颜 色 副 载波 频率 将 色 度 信号 移 至 
与 亮度 信号 共享 的 信道 的 高 频段 。 色 度 和 亮度 分 量 可 以 在 接收 端 进行 分 离 ， 并 且 这 两 种 颜色 分 量 
可 以 进一步 地 恢复 。 

当 连 接 到 电视 或 者 VCR 上 时 ， 复 合 视频 仅 用 一 根 线 〈 和 一 个 连接 器 ， 例 如 共 轴 电 缆 两 端 安 
装 的 BNC 连接 器 或 者 普通 电线 两 端的 RCA 揪 槽 )， 而 且 视 频 颜色 信号 是 混合 的 ， 而 不 是 分 开发 
送 的 。 音 频 信 号 可 以 附加 到 这 样 的 信号 上 传送 。 由 于 颜色 信息 已 经 混合 起 来 ， 颜 色 和 强度 都 封装 
到 同一 个 信号 中 ， 那 么 亮度 和 色 度 之 间 的 干扰 就 不 可 避免 。 
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5.1.3 S-Video 


作为 折 中 方案 ，S-video 〈 分 离 视频 或 超 视频 ， 例 如 在 S-VHS F) 使 用 两 条 电线 ， 一 条 用 于 
亮度 信号 ， 另 一 条 用 于 混合 的 色 度 信号 。 这 样 ， 颜 色 信息 与 关键 的 灰 度 信息 之 间 的 色 度 亮 度 干扰 
会 少 一 些 。 

将 亮度 作为 信号 ， 一 部 分 原因 是 对 于 视觉 感知 来 说 黑白 信息 是 至 关 重 要 的 。 正 如 前 面 几 章 所 
讲 的 ， 人 类 对 灰 度 图 中 的 空间 分 辨 率 更 为 敏感 ， 彩 色 图 的 彩色 部 分 〈 相 对 于 黑白 部 分 ) 则 稍 差 。 
因此 ， 在 发 送 过 程 中 ， 颜 色 信息 就 没有 强度 信息 那样 精确 。 由 于 我 们 只 看 到 较 大 的 颜色 块 ， 因 而 
就 可 以 发 送 较 少 的 颜色 细节 信息 。 


5.2 ”模拟 视频 


大 多 数 电视 是 通过 模拟 信号 收发 电视 节目 的 。 当 电子 信号 被 接收 时 ,我 们 可 以 假设 由 于 件 马 校 
正 ( 详 见 4.1.6 节 ) 的 作用 ， 如 果 亮 度 不 是 电压 的 线性 函数 的 话 ， 至 少 也 是 电压 的 单调 函数 。 

模拟 信号 f(D) 对 时 变 的 图 像 进行 采样 。 所 谓 的 渐进 扫描 按照 时 间 间 隔 逐 行 跟踪 完整 的 图 像 
( 帧 )。 高 分 辨 率 的 计算 机 显示 器 的 时 间 间 隔 一 般 为 1/72 秒 。 

在 电视 、 显 示 器 或 多 媒体 标准 中 ， 采 用 隔行 扫描 (interlaced scanning )。 隔 行 扫描 先 扫 描 奇 数 
行 ， 然 后 扫描 偶数 行 。 这 样 就 产生 “奇数 域 ” 和 “偶数 域 ” 两 个 域 组 成 一 帧 图 像 。 

事实 上 ， 奇 数 行 〈 从 第 一 行 开始 ) 扫描 到 奇数 域 中 最 后 一 行 的 中 间 部 位 ， 偶 数 行 扫描 就 从 第 
一 行 的 中 线 位 置 开 始 。 图 5-1 显示 了 这 种 方案 。 
首先 扫描 奇数 行 〈 用 实 线 表 示 )， 从 了 P 到 Q， 然 
后 从 R 到 S 等 ， 最 后 到 T 终 止 ， 接 下 来 偶数 行 
扫描 从 U 开始 ， 到 V 停止 。 扫 描 线 在 一 个 微小 
电压 的 作用 下 不 是 水 平 的 , 随 着 时 间 的 推移 向 下 
缓慢 移动 电子 束 。 

发 明 隔 行 扫描 技术 是 为 了 解决 定义 标准 之 
后 ,很 难以 足够 快 的 速度 (避免 图 像 闪 动 ) 传送 

- 帧 图 像 信息 的 问题 。 当 我 们 眼睛 看 到 双 倍 扫描 

图 像 时 可 以 减少 感觉 到 的 办 动 。 

由 于 隔行 扫描 的 作用 ， 奇 数 行 和 偶数 行 交 
替 显 示 。 一 般 情 况 下 ， 我 们 感觉 不 到 这 种 交替 过 程 ， 除 非 在 屏幕 上 有 快速 动作 发 生 时 ， 可 能 产生 
模糊 的 图 像 。 例 如 ， 在 图 5-2 中 显示 的 视频 ， 移 动 的 直升机 就 比 静止 的 背景 要 模糊 一 些 。 





5-1 隔行 光栅 扫描 





a) 视频 帧 b) 域 1 c) 域 2 d) 域 的 差 
图 5-2 ”隔行 扫描 为 每 帧 产生 2 个 域 





BSE BRMPHRAMS 79 


有 时 候 我 们 需要 改变 帧 速率 、 缩 放 视频 甚至 从 应 用 隔行 扫描 的 视频 源 中 产生 停止 图 像 ， 因 此 
还 要 采用 各 种 方案 去 除 交 错 模式 。 去 除 交错 模式 最 简单 的 一 种 方法 就 是 据 弃 其 中 一 个 扫描 域 ， 复 
制 男 一 个 域 的 扫描 线 ， 这 样 导 致 其 中 一 个 域 的 信息 完全 丢失 。 其 他 更 复杂 的 方法 都 是 保留 两 个 域 
的 信息 。 

CRT 显示 由 类 似 荧 光 灯 的 东西 构成 ， 为 保证 图 像 平滑 必须 每 秒 内 动 50~70 次 。 在 欧洲 ， 这 种 
设计 是 和 电力 系统 50Hz 的 频率 紧密 相关 的 ， 他 们 以 每 秒 25 帧 〈 即 25fps〉 的 频率 进行 数字 化 的 
视频 。 在 北美 ， 电 力 系 统 采 用 60Hz 的 频率 ， 则 以 30fps 的 帧 速率 进行 数字 化 。 

图 5-1 中 从 QER 的 跳 变 称 为 水 平 回 扫 (horizontal retrace)， 在 此 过 程 中 CRT 的 电子 束 是 空 
AB. MT SU RAM V 到 P 的 跳 变 被 称 为 重 直 回 扫 (vertical retrace). 

由 于 电压 是 一 维 的 〈 它 仅 随 时 间 变 化 而 改变 )， 那 么 我 们 怎么 知道 什么 时 候 新 的 视频 帧 开始 
We? 也 就 是 说 ， 电 子 信号 中 哪 部 分 能 够 告诉 我 们 必须 从 屏幕 左 侧 开始 重新 扫描 ? 

模拟 视频 中 采用 的 一 种 解决 方案 是 用 零 起 点 的 微小 偏 移 电压 表示 “ 黑 ” 另 一 个 电压 《例如 
SH) 表示 一 行 扫描 的 起 始 。 也 就 是 说 ， 我 们 可 以 采用 “ 比 黑 色 更 黑 ”(blacker-than-black) $ 
信和 号 表示 一 行 扫描 的 起 始 。 

图 5-3 显示 一 个 典型 的 NTSC 中 复合 视频 扫描 线 的 电子 信号 .“ 白 ” 线 处 电压 峰值 为 0.714V; 
“ 黑 ” 线 为 稍 高 于 零 电 压 的 0.055V; 而 “ 消 隐 ” 线 才 用 堆 电 压 表示 。 如 图 所 示 ， 信 和 号 中 消 隐 脉冲 
时 间 段 主要 用 于 同步 ， 同 步 信 号 大 致 为 -0.286V 左右 。 事 实 上 ， 可 靠 同 步 是 非常 重要 的 ， 以 至 于 
一 些 特殊 的 信号 中 使 用 信号 的 30% 来 处 理 同步 。 


白 (0T14V) ----------------------------------- 









黑 (0.055 V) 
OV) -q---------------------------4--- >t 


同步 0.286 V) | — -{-------------------------4-- 


52.71LS 


水 平 回 扫 活动 线 信号 
图 5-3 NISC 中 扫描 线 的 电子 信号 


垂直 回 扫 和 同步 的 思想 与 水 平 回 扫 非常 类 似 , 只 是 它 仅 仅 在 每 个 扫描 域 中 出 现 一 次 。Tekalp[2] 
中 详细 讨论 模拟 视频 和 数字 视频 的 内 容 。 手 册 [3] 中 深入 探讨 了 视频 处 理 中 的 一 些 基 本 问题 。 
5.2.1 NTSC 视频 

NTSC TV 的 标准 主要 在 北美 和 日 本 使 用 。 它 采用 4:3 的 画面 比例 (也 就 是 图 像 的 长 宽 比 )， 
每 秒 30 帧 ， 每 帧 525 条 扫描 线 。 

更 精确 地 说 ， 由 于 历史 原因 ，NTSC 采用 每 秒 29.97 帧 ， 换 句 话 说 ， 每 帧 33.37ms。NTSC 遵 
循 隔行 扫描 系统 的 设计 ,每 一 帧 分 为 两 个 域 ， 每 个 域 有 262.5 行 。 因此 , 水 平 扫描 率 是 525x29.97~ 
15 734 行 / 秒 ， 每 行 扫描 时 间 是 1/15 734s~63.6hs。 其 中 水 平 回 扫 占 用 10.9hs， 这 就 剩 下 $2.7hs 用 
于 活动 视频 线 信 号 ， 这 段 时 间 用 于 显示 图 像 数 据 (如 图 5-3 所 示 )。 

图 5-4 显示 NTSC 视频 光 顶 中 “垂直 回 扫 与 同步 ”和 “水 平 回 扫 与 同步 ”的 效果 。 消 隐 信 息 
放置 于 每 个 域 起 始 位 置 为 控制 信息 预 留 的 20 行 中 。 这 样 ， 每 帧 中 活动 视频 线 (active video line) 
的 数量 只 有 485 条 。 类 似 地 ， 光 栅 左 侧 差不多 16 的 部 分 是 空白 的 ， 用 于 水 平 回 扫 和 同步 。 非 空 
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白 的 像素 称 为 活动 像素 (active pixel). 

像素 通常 落 于 扫描 线 之 间 。 因 此 ，NTSC TV 即使 l HAHpARS 
采用 非 隔行 扫描 也 仅 能 显示 340 (可 视 ) 行 , 大 致 是 485 
条 特定 的 活动 视频 线 的 70% 左 右 。 采 用 隔行 扫描 ， 该 数 
值 只 能 达到 50% 左 右 。 

图 像 数据 在 消 隐 区 域 时 不 能 编码 ， 但 是 其 他 的 信息 
可 以 放置 到 该 区 域 中 , 例如 V-chip 信息 、 立 体 声 信 道 数 
据 和 用 不 同 语言 显示 的 字幕 等 。 

NTSC 视频 是 一 种 没有 固定 水 平分 辩 率 的 模拟 信 
号 。 因 此 ， 我 们 必须 预先 确定 对 显示 信号 采样 的 次 数 。 图 5-4 包括 回 扫 和 同步 数据 的 视频 光栅 
每 次 采样 对 应 于 一 个 像素 输出 。 点 时 钟 (pixel clock) 
将 视频 的 每 个 水 平行 划分 为 采样 。 点 时 钟 的 频率 越 高 ， 。 - 表 51 各 种 模拟 视频 格式 中 行 采 样 点 
每 行 的 采样 点 就 越 多 。 

不 同 的 视频 格式 有 不 同 的 行 采样 点 个 数 ， 如 表 5-1 
所 示 。 激 光盘 大 致 和 Hi-8 相同 。( 相 比 之 下 ， 用 于 数字 
视频 的 miniDV 的 1/4 英寸 磁带 有 480 行 ， 每 行 720 个 
采样 点 。) 

NTSC 采用 YIQ 颜色 模型 。 我 们 应 用 正 交 调制 的 技 
术 来 整合 1 ( 同 相 ) 信号 和 QQ CER) 信号 为 一 个 单独 的 色 度 信号 CU, 2]: 

C=1cos(Ft)+ Qsin (Ft) EST) 


调制 的 色 度 信号 也 就 是 我 们 所 知 的 颜色 副 载 波 〈color subcarrier), HIREA y7 +0, FAA 
WEH tan“'(Q/1) o C 的 频率 为 Fse =3.58MHz 。 

如 式 〈5.1) AR, REA 0 信号 要 与 和 频率 Fe 有关 的 余弦 函数 和 正弦 函数 相 乘 。 该 式 
相当 于 在 频 域 上 对 Fee 和 -- 玉 .两 处 脉冲 函数 作用 下 的 傅 里 时 变换 进行 卷 积 运算 。 结 果 , —tt 1 Q 
的 频率 谱 分 别 集中 在 Fee 和 -Re 处 。” 

NTSC 的 复合 信号 是 亮度 信号 了 和 色 度 信号 的 复合 信号 ， 定 义 如 下 : 

复合 信号 =Y+C=Y+1cos(Fyt)+Qsin (Fst) (5.2) 


NTSC 根据 人 类 对 于 颜色 的 细节 内 容 〈 颜 色 变化 的 高 频 部 分 ) 不 敏感 的 特性 ， 给 予 了 的 带宽 
为 4.2MHz， 而 了 只 有 1.6MHz, Q 只 有 0.6MHz。 如 图 5-5 所 示 ， 在 NTSC 视频 信道 中 ， 图 像 载波 
信和 号 在 1.25MHz 处 ， 该 信道 的 总 带宽 有 6MHz。 色 度 信 号 通过 Fe = 3.58 MHz 的 频率 携带 到 信道 
的 高 频 端 ， 因 此 集中 在 1.25+3.58=4.83MHz 处 。 由 于 了 的 高 频 部 分 的 幅 值 比 其 低频 部 分 的 幅 值 小 
得 多 ， 这 样 就 在 很 大 程度 上 减 小 了 (亮度 ) 和 C ER) 之 间 的 干扰 。 

此 外 ， 正 如 Blinn[1] 所 解释 的 ， 应 该 格外 注意 将 离散 的 了 和 C 频谱 交错 起 来 ， 这 样 能 够 进 一 
步 减少 它们 之 间 的 和 干扰。 图 5-5 说 明了 交错 过 程 ， 这 里 了 的 频率 分 量 〈 从 傅 里 时 变换 得 到 ) 用 实 
线 表示 ,7 和 O 分 量 用 虚线 表示 。 结果 了 的 4.2MHz 频率 带 与 1 的 1.6MHz 带 和 O 的 0.6MHz 带 交 
BEE. 





水 平 回 扫 和 同步 











O -Re 是 傅 里 时 变换 中 的 一 个 数学 概念 。 在 物理 频谱 中 ， 只 使 用 正 频率 。 
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在 接收 端 对 复合 信号 解码 的 第 一 步 是 分 离 了 和 C。 一 般 而 言 ， 低 通 滤波 器 可 以 用 于 提取 了 分 
量 ， 该 滤波 器 置 于 信道 的 低频 端 。 高 质量 画面 的 电视 机 也 采用 根据 了 和 C 交错 的 原理 制 成 的 梳 状 
滤波 器 [1]。 








1.25 Y 1 和 @ 483 
画面 载波 颜色 副 载 波 音频 副 载波 


图 5-5 NTSC 频谱 中 交错 的 Y 和 C 信和 号 


分 离 了 分 量 之 后 ， 通 过 解 调 色 度 信 号 C 分 别提 取出 7 和 8 分 量 。 
为 了 提取 7 了 分量 ， 要 进行 以 下 工作 : 
1) 信号 CRA 2cos(F,ct) o 
Ce2cos( Feet) = 1 *2.cos? (Feet) + O° 2sin (Ft) COS (Fact) 
=Ie(1+cos (2F,-t))+Q*2sin (Fsct) cos (Fct) 
= I + I ecos(2Fect) + Qesin(2Fect) 


2) 应 用 低 通 滤波 器 得 到 7 了 分量， 并 据 弃 两 个 高 频 项 〈2 尺 。 )。 

类 似 地 ， 首 先 将 C 乘 以 2sin (Fict) ， 然 后 进行 低 通 滤 波 就 可 以 得 到 QE. 

NTSC 中 的 6MHz 带宽 是 很 紧张 的 。 音 频 副 载波 频率 是 4.5MHz， 它 将 音频 带宽 中 心 移 至 
1.25+4.5=5.75MHz 处 〈 如 图 5-5 所 示 )。 实 际 上 ， 这 与 颜色 副 载波 的 距离 太 近 了 ， 这 就 是 音频 信 
号 和 颜色 信号 之 间 产 生 于 扰 的 一 个 潜在 原因 ， 而 这 是 由 于 NTSC 彩色 电视 将 帧 速率 降低 为 30x 
1000/1001=29.97fps 造成 的 [4]。 结 果 ， 目 前 采用 的 NTSC 颜色 副 载波 频率 稍微 降低 了 一 点 : 

fse =30x1000/1001x525x227.5 = 3.579545 MHz 
这 里 的 227.5 是 在 NTSC 广播 电视 中 采用 的 每 条 扫描 线 的 颜色 采样 点 的 个 数 。 
5.2.2 PAL 视频 

PAL (Phase Alternating Line, B77 HI) 标准 是 由 德国 科学 家 设计 的 TV 标准 。 它 采用 每 帧 
625 条 扫描 线 ， 每 秒 25 帧 〈 即 40 毫秒 / 帧 的 帧 率 ，4:3 的 画面 比例 和 隔行 扫描 域 。 它 的 广播 TV 
信号 也 在 复合 视频 中 采用 。PAL 标准 在 西欧 、 中 国 、 印 度 和 许多 其 他 国家 广泛 使 用 。 

PAL 采用 YUV 颜色 模型 ， 其 信道 宽度 为 8MHz， 其 中 5.5MHz 分 配给 了 分 量 , U 和 了 分 量 各 
分 配 1.8MHz。 颜 色 副 载波 频率 为 fe = 4.43 MHz。 为 了 提高 画面 质量 ， 色 度 信和 号 在 连续 的 扫描 线 
中 使 用 交友 符号 (例如 +U 和 -U)， 也 就 是 逐 行 倒 相 这 一 名 字 的 由 来 。 这 样 便于 在 接收 端 使 用 梳 
状 滤 波 器 ， 作 用 是 平均 化 连续 扫描 行 中 的 信号 ， 这 样 就 不 用 色 度 信号 〈 总 有 负 号 ) 来 分 离 了 和 C 
分 量 并 能 获得 高 质量 的 了 信和 号。 


© 参见 Blinn[1]，NTSC 为 每 个 扫描 行 选 择 一 个 半 整 数 (227.5) 的 颜色 采样 ， 因 而 具 色 度 信号 也 在 相连 的 扫 措 行 变 换 符号 。 
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5.2.3 SECAM 视频 


SECAM 是 由 法 国 科学 家 设计 的 第 三 大 广播 电视 标准 。SECAM (System Electronique Couleur 
Avec Memoire) 表示 顺序 传送 与 存储 彩色 电视 系统 。SECAM 也 是 采用 每 帧 625 条 扫描 线 ， 即 每 
秒 25 帧 的 帧 率 ，4:3 的 尺寸 比 和 隔行 扫描 域 。 最 初 的 设计 要 求 有 更 多 数目 的 扫描 线 (800 RUE), 
但 是 最 终 版 本 只 有 625 条 。 

SECAM 和 PAL 十 分 类 似 的 ， 只 是 在 颜色 编码 方案 上 有 所 区 别 。 在 SECAM 中 ,，U 和 V 信 号 
通过 分 别 在 4.25MHz 和 4.41MHz 处 使 用 单独 的 颜色 副 载 波 来 进行 调制 。 它 们 是 用 交替 的 线 发 送 
的 ， 也 就 是 说 ， 在 每 条 扫描 线 中 ，U 和 V 信 号 只 有 一 个 被 发 送 。 

表 5-2 给 出 三 种 主要 的 模拟 广播 电视 系统 的 对 比 。 


表 5-2 模拟 广播 电视 系统 的 对 比 


分 配 宽度 (MHz) 
amt naas | misme om 





5.3 ”数字 视频 

视频 的 数字 显示 技术 的 优点 有 很 多 。 它 允许 

。 在 内 存 或 者 数字 设备 上 存储 视频 以 便于 进一步 的 处 理 〈 去 噪 、 前 切 和 粘贴 等 操作 ) 以 及 集 

成 到 各 种 各 样 的 多 媒体 应 用 程序 中 。 

。 直接 访问 ， 这 样 使 得 非 线性 视频 编辑 更 加 简单 。 

。 重复 记录 而 不 降低 图 像 的 质量 。 

。 便于 加 密 ， 对 信道 噪声 的 容忍 度 更 高 。 

在 Sony 或 Panasonic 的 早期 录像 机 中 ， 数 字 视 频 是 由 复合 视频 构成 的 。 一 般 来 说 ， 现 代 的 数 
字 视 频 都 采用 分 量 视频 ， 尽管 RGB 信和 号 首先 被 转换 成 某 些 颜色 分 量 空间 ， 例 如 YUV 空间 。 通常 
的 颜色 空间 是 YCbCrf5]。 


5.3.1 色 度 的 二 次 采样 


由 于 人 类 对 彩色 没有 黑白 那样 敏感 ， 因 此 消减 色 度 信号 是 很 有 意义 的 。 我 们 使 用 一 些 有 趣 但 
未 必 有 教 益 的 名 称 来 标示 不 同 的 方案 。 首 先 ， 用 数字 表示 每 4 个 原始 像素 中 多 少 像素 值 会 实际 发 
送 。 因 此 ， 色 度 二 次 采样 方案 “4:4:4” 表 示 没 有 使 用 色 度 二 次 采样 。 每 个 像素 的 Y、 Cb 和 Cr 
值 被 传送 ， 每 个 Y Cb 和 Cr 都 是 4。 

方案 “4:2:2” 表 示 Cb 和 Cr 信和 号 是 因子 为 2 的 水 平 二 次 采样 。 也 就 是 说 ， 中 水 平方 向 上 4 
个 像素 标 为 0~3 的 了 发 送出 去 , 同时 每 隔 一 个 的 Cb 和 每 隔 一 个 的 Cr 也 一 起 发 送出 去 。 例 如 (Cb0， 
YO) (CrO, Y1) (Cb2，Y2) (Cr2, Y3) (Cb4, Y4) 等 等 。 

方案 “4:1:1” 水 平 二 次 采样 的 因子 是 4。 方 案 “4:2:0” 在 水 平方 向 和 垂直 方向 都 进行 二 次 
采样 ， 其 因子 是 2。 从 理论 上 说 ， 平 均 的 色 度 像素 置 于 行 和 列 之 间 ， 如 图 5-6 所 示 。 我 们 可 以 看 
到 方案 4:2:0 实际 上 是 另 一 种 4:1:1 的 模式 ， 其 中 每 4 个 像素 我 们 发 送 4，1，1 个 值 。 因 此 ， 这 
种 标示 的 方法 不 是 很 可 信 的 助 记 方法 。 

其 中 方案 4:2:0 与 其 他 配合 被 广泛 地 应 用 到 JPEG 和 MPEG (在 第 二 部 分 中 详细 讲述 》 中。 
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©GGG Oo © ®@0 0000 
®©®G@Ge® © © ®WO@O®O 
©GGGo © ©0000 
©G@®eo © © ®PWoe@eoew#o 

4:4:4 4:2:2 
©0000 0 ọ9q0ọ90ọ00Ọ 
©00000 O00000 
®©00000 90ọ09ọ00 
©@00000 OOO00C 0 

4:1:1 4:2:0 

O 仅 有 了 值 的 像素 


@ 仅 有 Cr 和 Cb 值 的 像素 
@© 有 Y、Cr 和 cb 值 的 像素 
5-6 色 度 的 二 次 采样 


5.3.2 ”数字 视频 的 CCIR 标准 


CCR 是 国际 无 线 电 咨询 委员 会 (Consultative Committee for International Radio) 的 简称 。 它 
制定 的 重要 标准 之 一 就 是 针对 于 分 量 数字 视频 (4.3.4 节 介 绍 过 ) 的 CCIR-601 标准 。 该 标准 目前 
已 经 成 为 TTU-R-601 标准 一 一 一 个 针对 专业 视频 应 用 的 国际 标准 。 它 已 经 被 某 些 数字 视频 格式 ( 包 
括 十 分 流行 的 DV 视频 ) 所 采用 。 

NTSC 版 本 中 包含 有 525 条 扫描 线 ， 每 条 扫描 线 有 858 个 像素 〈 其 中 720 个 像素 可 见 ， 不 在 
消 隐 周期 中 )。 因 为 NTSC 版 本 中 使 用 4:2:2 方案 ， 每 个 像素 能 够 用 两 个 字 节 表示 (8 位 用 于 表示 
Y, 8 位 交替 表示 Ch 和 Cr)。 这 样 ，CCIR 601 (NTSC) 的 数据 率 〈 包 括 消 隐 和 同步 数据 ， 不 包括 
音频 数据 ) KAZE 216Mbps 〈 每 秒 兆 位 ): 


位 
525x858x 30x 2 Fi x8—— = 216Mbps 
字 节 


在 消 隐 过 程 中 ， 数 字 视 频 系 统 可 使 用 额外 的 数据 容量 来 传送 音频 信号 ， 外 文 译文 或 者 纠 错 
信息 。 
表 5-3 显示 一 些 数字 视频 规范 ， 其 中 所 有 规范 的 画面 比例 是 4:3。CCIR 601 标准 使 用 的 是 隔 
行 扫描 ， 这 样 每 个 域 中 只 有 垂直 分 辨 率 的 一 半 “〈 例 如 在 NTSC 中 是 24047). 

表 5-3 数字 视频 规范 


CCIR 601 525/60 NTSC | CCIR 601 625/50 PAL/SECAM 
720x480 720x576 352x288 
360x480 360x576 176x144 


4:2:2 4:2:2 4:2:0 
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CCIR 601 525/60 NTSC CCIR 601 625/50 PAL/SECAM 


60 50 

CIF 是 公共 中 间 格 式 〈Common Intermediate Format) 的 简称 ， 该 规范 是 由 国际 电报 电话 咨询 
委员 会 (International Telegraph and Telephone Consultative Committee, CCITT ) 制定 的 , 现在 CCITT 
由 国际 电信 同盟 (International Telecommunication Union) 代替 ， 该 组 织 同时 监管 在 同一 个 国际 团 
体 中 的 电信 标准 化 部 门 CTU- 和 无 线 电 通信 部 门 〈ITU-R)。CIF 的 思想 与 VHS 质量 的 思想 大 
致 一 样 的 ， 用 于 为 低 码 率 的 情况 制定 格式 规范 。CIF 使 用 顺序 扫描 《〈 非 隔行 扫描 ) MAK. QCIF 
表示 Quarter-CIF， 主 要 应 用 于 均匀 的 低 码 率 的 情况 。 所 有 的 CIF 或 QCIF 分 辨 率 都 被 8 整除 ， 除 
88 外 所 有 的 情况 均 能 被 16 整除 。 这 样 方便 于 H.261 和 H.263 协议 中 基于 块 的 视频 编码 ， 这 部 分 
内 容 将 在 第 10 章 中 讨论 。 

CIF 是 NTSC 和 PAL 的 折 中 方案 ， 因 为 它 既 采用 NTSC 的 帧 速率 ， 又 采用 PAL 中 活动 扫描 
线 个 数 的 一 半 。 当 在 电视 机 中 播放 节目 时 ， 基 于 NTSC 的 电视 节目 首先 要 转换 扫描 线 的 个 数 ， 而 
基于 PAL 的 电视 节目 就 需要 改变 帧 率 的 大 小 。 


5.3.3 HDTV . 


宽屏 幕 电影 不 同 于 常规 的 电影 ， 它 允许 观众 靠近 屏幕 并 有 一 定 程 度 上 的 互动 参与 。 宽 屏幕 电 
影 可 以 看 到 较 宽 的 区 域 ， 特 别 是 引入 视觉 边 限 的 技术 ， 让 人 身 临 其 境 。 高 清 电视 (HDTV) 不 是 
增加 每 个 单元 区 域 的 清晰 度 ， 而 是 增加 可 视 域 ， 特 别 是 宽度 。 

第 一 代 HDTV 是 基于 20 世纪 70 年 代 后 期 日 本 的 Sony 和 NHK 开发 的 模拟 技术 。 在 日 本 ， 
HDTV 成 功 地 播放 了 1984 年 洛杉矶 奥运 会 。MUSE (Multiple sub-Nyquist Sampling Encoding) 是 
改进 的 NHK 的 HDTV 系统 ， 该 系统 采用 混合 的 模拟 /数字 技术 ， 并 在 20 世纪 90 年 代 得 到 应 用 。 
它 采 用 1125 条 扫描 线 隔行 扫描 ，( 每 秒 60 个 域 )， 画 面 比 例 为 16:9。 它 使 用 卫星 广播 电视 节目 ， 
该 方式 很 适合 日 本 国情 ,仅仅 使 用 一 个 或 者 两 个 卫星 即 可 覆盖 日 本 全 国 。 使 用 的 直播 卫星 (Direct 
Broadcast Satellite, DBS) 信道 有 24MHz 的 带宽 。 

总 之 ， 陆 地 广播 、 卫 星 广播 、 光 缆 和 宽带 网 络 是 传送 HDTV 和 传统 的 TV 节目 的 一 些 可 行 的 
方法 。 因为 非 压缩 的 HDTYV 要 求 20MHz 的 带宽 , 这 并 不 适合 当前 6MHz 或 者 8HMz 的 信道 带宽 ， 
所 以 各 种 压缩 技术 正在 研究 中 。 我 们 可 以 预见 ， 高 质量 的 HDTYV 信和 号 即使 经 过 压缩 ， 也 要 通过 多 
个 信道 进行 传送 。 

1987 Æ, FCC 决定 HDTV 标准 必须 和 现 有 的 NTSC 标准 兼容 ， 必 须 限 制 在 现 有 的 VHF 和 
UHF 波段 内 。 到 1988 年 底 , 北美 提出 一 系列 相关 方案 , 全 部 都 是 基于 模拟 的 或 者 模拟 /数字 混合 的 。 

1990 Œ, FCC 提出 另 一 种 提案 ， 它 更 适合 于 全 分 辩 率 的 HDTV。 它 们 决定 HDTV 可 以 同时 
用 现 有 的 NTSC 电视 广播 ， 最 终 再 代替 它 。 数 字 HDTV 的 开发 立刻 在 北美 飞速 发 展 。 

EERE HDTV 的 各 个 提案 ，1993 F, FCC 作出 了 一 个 重要 决定 。 由 General Instruments. 
MIT. Zenith 和 AT&T 等 机 构 ，Thomson、Philips、Sarnoff 等 人 联合 组 建 Grand Alliance 组 ， 并 提出 
四 个 主要 提案 。 它 后 来 发 展 成 为 ATSC, ATSC 主要 负责 HDTV 的 电视 广播 的 相关 标准 的 制定 。 1995 
年 , 美国 的 FCC 咨询 委员 会 关于 Advanced Television Service 建议 应 该 采用 ATSC 的 数字 电视 标准 。 

该 标准 支持 表 5-4 中 所 示 的 视频 扫描 格式 。 在 表 中 , I 表示 隔行 扫描 ,P 表示 渐进 ( 非 隔行 ) 
扫描 。 支 持 整 数 帧 速率 和 NTSC 帧 速率 ， 也 就 是 60.00 fps 或 59.94 fps, 30.00 fps 或 29.97 fps, 
24.00 fps 或 23.98fps。 














画面 比例 





是 否 陋 行 扫 描 
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R5-4 ATSC 支持 的 高 级 数字 视频 格式 





每 线 的 活动 像素 数 
1920 





1080 





60I 30P 24P 
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对 于 视频 而 言 ，MPEG-2 被 选 为 压缩 标准 。 正 如 第 11 章 将 要 讲 到 的 ， 它 采用 MPEG-2 中 的 
Main Profile 的 Main Level 到 High Level。 对 于 音频 而 言 ，AC-3 是 相关 标准 。 它 支持 5.1 信道 杜 
比 环 绕 立体 声 ， 即 五 个 环绕 立体 声 信道 加 上 低音 炮 信道 。 

一 般 的 TV 和 HDTV 的 显著 区 别 [4，6] 就 在 于 后 者 有 16:9 的 画面 比例 而 前 者 只 有 4:3 EX 
E, HDTV 比 一 般 的 TV 宽 13)。HDTYV 的 另 一 个 特点 是 它 朝 着 渐进 扫描 《〈 非 隔行 扫描 ) 的 方向 
发 展 。 原 因 是 隔行 扫描 会 给 运动 物体 引入 锯齿 边 ， 给 水 平 边 带 来 播 摆 。 

FCC 计划 在 2006 年 以 前 将 所 有 模拟 信号 的 广播 服务 替换 成 数字 电视 广播 。 模 拟 电 视 机 用 户 
将 可 以 通过 一 个 8-VSB (8-level vestigial sideband) 解 调 器 来 接收 该 信号 。 这 项 服务 将 包括 ; 

。 标 清 数字 电视 一 一 当前 的 NTSC 制式 电视 或 更 高 。 

。 增 强 清晰 度 电视 一 一 480 根 活动 线 或 者 更 多 ， 即 表 5-4 中 的 第 三 行 和 第 四 行 。 

。 高清 电视 一 一 720 根 活动 线 或 者 更 多 。 到 现在 为 止 ， 最 常用 的 选择 是 720P (720 线 ， 渐 进 

扫描 ，30fps) 和 10801 (1080 线 ， 隔 行 扫描 ，30fps 或 60fps)。 后 者 比 前 者 能 提供 稍微 好 一 
些 的 图 像 质量 ， 但 是 对 带宽 要 求 更 高 。 


5.4 进一步 探索 


Tekalp[5] 涵 盖 数字 视频 技术 中 的 一 些 重要 问题 Steinmetz 和 Nahrstedt[7] 在 他 们 的 著作 的 第 
5 章 中 对 视频 和 电视 系统 做 了 详细 的 讨论 。Poynton[6] 提 供 了 数字 视频 和 HDTV 的 更 新 的 介绍 。 

本 书 网 站 上 与 本 章 中 有 关 的 链接 包括 : 

。 NTSC 电视 的 教程 。 

。 ATSC 官方 网 站 。 

。 数字 电视 的 前 沿 消息 。 

。 HDTV 的 介绍 。 

。 FCC 官方 网 站 。 


5.5 练习 


1. NTSC 视频 每 帧 525 线 ， 每 线 63.6 hs， 垂 直 回 扫 每 域 20 线 、 水 平 回 扫 10.9 ps. 
(a) 63.6 hs 是 如 何 得 出 的 ? 
(b) 垂直 回 扫 和 水 平 回 扫 哪个 耗 时 更 多 ? 具体 多 耗费 多 长 时 间 ? 
2. 欧洲 的 PAL 和 北美 的 NTSC 哪 种 制式 的 闪烁 更 小 ? 证 明之 。 
3， 有 时 ， 电 视 信号 由 少 于 电视 传输 所 要 求 的 所 有 部 分 所 组 成 。 
(a) 室内 广播 电视 需要 多 少 种 信号 ? 这 些 信号 分 别 是 什么 ? 
(b) S-video 需要 多 少 种 信号 ? 这 些 信号 分 别 是 什么 ? 
《c) 用 于 标准 模拟 电视 接收 的 广播 有 多 少 信号 ? 那 一 类 视频 叫 什么 ? 
4. 在 解 调 过 程 中 ， 如 何 从 NTSC HARES C 中 提取 出 @ 信号 ? 
5. 一 种 说 法 是 一 种 录像 带 的 老 的 Betamax 格式 ， 从 VHS 和 损失 来 看 ， 是 一 种 较 好 的 格式 。 请 对 
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这 种 说 法 给 出 评价 。 


6. 在 工作 站 上 播放 NTSC 制式 的 帧 时 一 般 不 会 出 现 闪 烁 。 请 问 可 能 的 原因 是 什么 ? 
7. 请 问 数字 视频 信号 采用 色 度 二 次 采样 的 原因 是 什么 ? 这 样 做 为 什么 是 可 行 的 ? 

8. 
9. 


普通 的 TV 和 HDTV 的 最 显著 的 差别 是 什么 ? HDTV 发 展 的 主要 动力 是 什么 ? 
隔行 扫描 视频 的 优点 是 什么 ? 它 存在 哪些 问题 ? 


10. 解决 隔行 扫描 视频 所 带 来 的 问题 的 一 种 办 法 是 去 除 交错 处 理 。 为 什么 不 能 通过 重 登 两 个 域 来 


获取 一 幅 去 除 交 错 处 理 的 图 像 ? 请 提出 一 些 简单 的 去 除 交错 处 理 的 算法 来 同时 保留 两 个 域 的 
信息 。 
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第 6 章 数字 音频 基础 


音频 信息 对 于 多 媒体 表现 非常 重要 ， 从 某 种 角度 来 讲 ， 它 也 最 简单 的 一 种 多 媒体 数据 。 但 音 
频 信息 和 图 像 信息 之 间 的 一 些 显著 的 差异 是 不 容 忽视 的 。 例 如 ， 在 视频 流 中 ， 为 了 加 快 视频 的 播 
放 速 度 ， 我 们 可 以 酌情 丢弃 一 些 视频 帧 ， 但 是 在 音频 信息 中 ， 我 们 却 不 可 以 这 人 么 做 ， 因 为 这 样 做 
会 丢失 整个 声音 信息 的 语义 。 在 这 一 章 中 ， 我 们 介绍 多 媒体 中 声音 的 一 些 基本 概念 ， 在 第 13、14 
章 中 介绍 声音 压缩 的 一 些 细节 问题 。 声 音信 息 的 数字 化 会 涉及 到 信号 处 理 中 采样 和 量化 的 一 些 知 
识 ， 所 以 我 们 在 本 章 中 介绍 这 些 概 念 。 

我 们 首先 讨论 声音 信息 的 组 成 。 然 后 我 们 讨论 一 下 MIDI， 它 用 于 采集 、 存 储 以 及 播放 数字 
音频 。 接 着 我 们 讨论 传输 过 程 中 涉及 的 音频 量化 的 一 些 细节 ， 同 时 简单 介绍 在 存储 和 传输 过 程 中 
对 数字 音频 的 处 理 。 这 里 ， 首 先 讨论 为 什么 预测 编码 的 残 差 会 接近 0， 并 因此 易于 处 理 。 


6.1 声音 数字 化 
6.1.1 什么 是 声音 


类 似 于 光 ， 声 音 是 一 种 波动 现象 ， 但 与 光 不 同 的 是 ， 声 波 是 一 种 宏观 现象 ， 一 些 物理 器 件 的 
运动 导致 了 空气 分 子 的 震动 ， 进 而 产生 声波 。 例 如 ， 音 频 系 统 里 面 的 扩 音 器 前 后 振动 产生 径 向 的 
压力 波 ， 这 种 波 就 是 我 们 所 听 到 的 声音 。( 举 个 例子 ， 我们 把 Siinky 沿 着 它 的 径 向 强 后 振动 ， 就 
EB 得 到 一 个 径 向 波 ， 如 果 垂 直 于 它 的 径 向 上 下 振动 ， 就 能 得 到 一 个 横向 波 。) 

没有 空气 就 没有 声音 ， 例 如 在 太空 就 听 不 到 声音 。 因 为 声波 是 压力 波 ， 取 连续 值 ， 这 与 取 离 
散 值 的 数字 信号 是 完全 不 同 的 。 因 此 ， 如 果 我 们 想 要 将 声波 作为 数字 信号 来 处 理 ， 我 们 首先 需要 
将 音频 信号 数字 化 。 

虽然 声波 是 径 向 波 ， 它 也 具有 一 般 的 波 的 属性 和 行为 ， 例 恕 反射、 折射 〈 进 入 另 一 种 具有 不 
同 密度 的 介质 时 产生 的 角度 变化 ) 和 衍射 ( 绕 过 特定 的 障碍 物 )。 这 些 特点 有 助 于 我 们 制造 环绕 
声场 。 

在 三 维 空间 的 任意 一 点 ， 声 波 都 带 有 可 测量 的 压力 值 ， 因 此 我 们 使 用 压力 传感器 将 压力 转换 
成 电压 差 ， 从 而 通过 检测 某 个 区 域 的 压力 值 来 探测 声音 。 
6.1.2 数字 化 . 

图 6-1 显示 了 声音 的 一 维 性 质 。 振 动 的 幅 值 随 着 时 
间 不 断 变 化 , 因为 压力 值 随 着 时 间 变 化 不 断 增加 或 减 小 
Ul 幅 值 是 连续 值 。 我 们 感 兴趣 的 是 如 何在 计算 机 的 存 
储 器 中 处 理 语音 数据 , 所 以 我 们 必须 将 麦克 风 产 生 的 模 
拟 信号 ( 即 连续 的 电压 值 ) 数字 化 。 在 处 理 图 像 数 据 时 ， 
我 们 也 需要 将 摄像 机 获得 的 与 时 间 相 关 的 模拟 信号 数 
字 化 。 数 字 化 意味 着 将 连续 值 转换 成 一 系列 的 离散 值 时 间 
(考虑 到 效率 ， 主 要 转换 成 整数 )。 图 6-1 ”一段 模拟 信号 ; 压力 波 的 连续 测量 


tama 
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图 6-1 是 二 维 的 ， 要 将 所 示 的 信和 号 全 部 数字 化 ， 我 们 就 要 在 每 一 维 (时 间 维 和 幅 值 ) 上 采样 。 
采样 指 在 一 个 空间 中 按照 一 定 的 取 值 间隔 对 我 们 感 兴趣 的 一 个 量 进行 测量 。 按 照 确定 的 时 间 间 隔 
在 时 间 轴 上 进行 的 采样 简称 “采样 ” 采样 的 速度 称 为 采样 率 。 图 6-2a 显示 的 就 是 这 种 类 型 的 数 
字 化 。 


振幅 
振幅 


时 间 时 间 


a) 在 时 间 轴 对 模拟 信号 采样 D 量化 是 指 在 振幅 轴 对 模拟 信号 采样 
图 6-2 采样 和 量化 


对 于 音频 信号， 采样 率 一 般 从 8kHz (每 秒 钟 8000 个 采样 点 ) 到 48kHz。 人 能 够 听见 从 
20Hz~20kHz 的 声音 。 高 于 20kHz 的 声音 称 为 超声 。 人 发 出 的 声音 最 高 能 够 达到 kHz, RIKK 
样 率 的 下 限 最 少 应 该 是 这 个 频率 的 2 倍 (参见 后 面 对 奈 奎 斯 特 采样 率 的 讨论 )。 现 在 我 们 能 够 达 
到 的 采样 率 大 概 是 8~40kHz。 

如 图 6-2b 所 示 ， 在 振幅 维 〈 或 者 说 电压 轴 〉 的 采样 称 为 量化 〈quantization)。 虽 然 我 们 只 讨 
论 等 采样 间隔 下 的 均匀 采样 ， 但 非 均匀 采样 也 是 可 能 的 。 非 均匀 采样 一 般 不 用 在 时 间 维 ， 但 是 可 
以 用 于 量化 《〈 参 见 下 文 的 上 -law 法 则 )。 典 型 的 均匀 量化 率 是 8 位 和 16 位 。8 位 量化 把 纵 轴 分 成 
256 个 区 间 ，16 位 量化 把 纵 轴 分 成 65 536 个 区 间 。 

要 决定 怎样 把 音频 数字 化 ， 我 们 需要 回答 以 下 一 些 问题 

1) 什么 是 采样 率 ? 

2) 怎样 精细 地 进行 数据 量化 ? 量化 是 均匀 的 吗 ? 

3 音频 数据 是 怎样 的 格式 ? 〈 即 是 什么 样 的 
文件 格式 ? ) 

6.1.3 RENFE 


+0.5x 


如 果 使 用 了 足够 的 正弦 函数 ， 我 们 可 以 把 信号 ae AX, 

分 解 成 一 系列 正弦 函数 的 和 。 图 6-3 显示 了 经 过 加 

权 的 一 些 正弦 函数 是 如 何 登 加 成 复杂 的 信号 的 。 这 - 
里 频率 是 绝对 的 衡量 标准 , 音 高 则 是 一 种 感觉 上 的 、 。 Liege MAAN 
主观 上 的 声音 质量 言 ， 音 高 是 相对 的 。 


音 高 和 频率 是 按 如 下 方式 联系 在 一 起 的 ; 将 音符 A 


以 正好 440Hz 作用 在 中 央 C 上 。 这 个 音符 上 的 一 个 102x 





和信 度 音 程 与 两 倍 的 频率 相关 并 引导 我 们 到 另 一 个 A 

at. Alt, fea PRA (“A4” 或 “A440”) 

WA 440Hz, F—7 A 就 是 880Hz， 高 了 一 个 八 度 405x 

音程 。 Sx 基 频 
在 这 里 ， 我 们 把 和 声 定 义 成 频率 为 基 音 整数 倍 

的 一 系列 的 乐音 。 图 6-3 就 包含 一 些 和 声 。 图 6-3 用 正弦 信号 又 加 出 复杂 的 信号 


By 





如 果 我 们 允许 基 音 频率 的 非 整 数 倍 语音 ， 如 允许 非 A 音符 ， 就 产生 了 一 段 复杂 的 声音 。 无 论 
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如 何 ， 每 段 声 音 都 是 正弦 波 登 加 的 结果 。 图 6-4a 显示 了 一 个 正弦 函数 ， 它 是 单一 的 、 单 纯 的 并 有 具 


有 周期 性 (只 有 电子 乐器 能 够 产生 如 此 单调 的 声音 )。 


如 图 6-4b 所 示 ， 如 果 采 样 频率 和 语音 的 真实 频率 一 致 , 我 们 会 检测 到 一 个 错误 的 信号 ， 它 仅 


仅 是 一 个 常数 ， 频 率 为 0。 如 果 使 用 语音 频率 的 1.5 倍 频 
率 来 采样 ,如 图 6-4c 所 示 , 我 们 会 得 到 一 个 比 真实 频率 小 
的 假 频 (alias )， 该 频率 只 有 真实 频率 的 一 半 ( 采 样 信 号 
的 波长 ， 即 波峰 到 波峰 间 的 距离 是 实际 信号 的 2 倍 )。 在 
计算 机 制图 中 ， 人 们 做 了 很 多 的 工作 ， 通 过 各 种 抗 锯 具 的 
方法 来 消除 这 种 假 频 现 象 。 假 频 是 指 不 属于 原始 信号 的 信 
号 。 基 于 以 上 原因 ， 为 了 得 到 正确 的 采样 ， 我 们 需要 使 用 
的 采样 频率 至 少 是 信号 中 最 高 频率 的 两 倍 。 这 就 是 奈 奎 斯 
特 采 样 率 。 

奈 奎 斯 特 是 贝尔 实验 室 的 一 位 著名 的 数学 家 ， 奈 奎 斯 
特定 理 就 是 以 他 的 名 字 命名 的 。 更 一 般 地 ， 对 于 一 个 限 带 
信号 (band-limited signal, 即 信号 的 频率 分 量 的 下 界 为 fi， 
MEERA 户 )， 那 么 采样 频率 至 少 是 2( 户 -月 ) 。 

假设 我 们 有 一 个 国定 的 采样 率 ， 因 为 不 可 能 恢复 出 高 
于 采样 频率 一 半 的 频率 ， 很 多 的 系统 都 带 有 抗 句 齿 的 滤波 
器 (filter)， 用 来 限制 采样 器 的 输入 频率 不 得 低 于 1/2 的 采 
样 频 率 。 容 易 混淆 的 是 ， 习 惯 上 人 们 把 奈 奎 斯 特 采 样 频率 
的 一 半 称 作 奈 奎 斯 特 频 率 。 因 此 ， 对 于 我 们 固定 的 采样 频 
率 而 言 ， 奈 牵 斯 特 频 率 就 是 该 采样 频率 的 一 半 。 信 号 中 最 
高 可 能 的 频率 成 分 与 频率 相同 。 





a) 





| 
d 














图 6-4 BA 


注意 ， 信 和 号 的 真实 频率 和 它 的 假 频 对 称 分 布 在 频率 轴 上 ， 在 与 所 使 用 的 采样 频率 有 关 的 奈 奎 
斯 特 频率 两 侧 。 因 此 ， 采 样 频率 所 对 应 的 奈 奎 斯 特 频 率 通 常 称 为 “折线 ”频率 。 也 就 是 说 ， 如 果 
采样 频率 小 于 实际 信号 频率 的 两 倍 , 但 是 大 于 实际 信号 频率 , 则 假 频 等 于 采样 频率 减 去 真实 频率 。 
例如 ， 真 实 频率 是 5.5kHz， 采 样 频率 是 8kHz， 那 么 假 频 为 2.5kHz: 
fan = 采样 频率 一 /真实 频率 ，f 真 实 频率 < /采样 频率 < 2X frome (6.1) 


同时 ， 任 何 一 个 频率 的 两 倍 都 可 以 作为 原 频 率 的 采样 点 。 事 实 上 ， 将 真实 频率 加 减 采 样 频率 


的 整数 倍 后 ， 就 得 到 一 个 可 能 的 假 频 。 而 用 采样 频 
率 采样 时 ， 这 样 的 假 频 能 给 出 同样 一 组 采样 。 

因此 ， 再 次 强调 ， 如 果 采 样 频率 不 仅 小 于 真实 
频率 的 两 倍 , 而且 小 于 真实 频率 ， 那么 假 频 等 于 几 
倍 的 采样 频率 减 去 真实 频率 , 其 中 n 是 大 于 真实 频 
率 的 n 倍 于 采样 频率 的 最 小 整数 , 我 们 求 采样 频率 
的 倍 频 中 比 真实 频率 大 的 最 小 频率 , 用 它 减 去 真实 
频率 ， 得 到 的 差 就 是 假 频 。 例 如 ， 在 真实 频率 介 于 
1.0 和 1.5 倍 的 采样 频率 之 间 时 ， 假 频 就 等 于 真实 
频率 减 去 采样 频率 。 


4 


表 观 频率 (kHz) 
o 一 


实际 频率 (kHz) 


6-5 用 8000Hz 采样 产生 的 正弦 频率 的 折 答 


效应 ， 折 全 频 率 是 4000Hz， 用 虚线 表示 
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一 般 来 讲 ， 一 组 拥有 相同 采样 点 的 正弦 信号 的 表 观 频率 是 该 组 信号 中 最 低 的 频率 。 图 6-5 表 
明了 输入 真实 ) 频率 的 表 观 频率 的 关系 。 


6.1.4 tate 

在 模拟 系统 中 ， 随 机 的 波动 会 在 信号 里 产生 噪声 〈noise)， 测 量 电压 会 因此 而 变 得 不 准确 。 
正确 信号 的 能 重 和 噪声 能 量 的 比 称 为 信 骂 比 (Signal-to-Noise Ratio，SNR )。 信 噪 比 是 信和 号 质量 的 
衡量 标准 之 一 。 

信 品 比 的 常用 单位 是 分 幢 (dB)，1dB 等 于 1/10 贝尔 。 信 噪 比 是 用 电压 平方 比 取 10 为 底 的 对 
数 来 定义 的 : 








Vag Ves 
SNR = 10logio —S~ = 20logio = (6.2) 
Vig Vig 


信号 的 能 量 和 电压 的 平方 成 正比 。 例 如 ， 如 果 信 和 号 的 电压 是 噪声 电压 的 10 倍 ， 那 么 信 噪 比 SNR = 


201081010) = 2048 - 表 6-1 常见 声音 的 强度 《dB) 
从 能 量 的 角度 说 , WR 10 把 小 提琴 演奏 所 产生 的 能 量 是 


1 把 小 提琴 演奏 所 产生 能 量 的 10 倍 ， 那 么 用 dB TEAL, A en ’ 
得 到 能 量 比 是 10dB, MAU lbel. ER, dB 始终 是 用 比 很 安稳 的 房间 20 
例 来 定义 的 。 在 日 常 环境 中 描述 声音 强度 ， 使 用 我 们 刚刚 可 一 般 房间 40 
以 听 到 的 1kHz 的 声音 作 分 母 。 我 们 把 周围 环境 中 的 声音 和 交谈 0 
我 们 能 够 听 到 的 最 轻 的 声音 求 能 量 比 ， 然 后 得 到 dB fA, A 本 华 街道 v 
它 来 衡量 声音 的 强度 。 表 6-1 给 出 了 不 同 声音 的 近似 强度 。 DARREN n 
6.1.5 (SMe tt 火车 穿 过 车 站 90 

在 数字 信和 号 中 ， 我 们 存储 是 离散 值 。 对 于 一 个 数字 音频 打 锦 机 100 
信号 来 说 ， 每 个 采样 的 精度 取决 于 每 个 采样 的 位 数 ， 通 常 是 TAFIRI 120 
8 位 或 者 16 位 。 AEH 140 





除了 原始 的 模拟 信号 中 存在 的 噪声 外 ， 离 散 化 会 带 来 其 HRR 
他 一 些 误差 。 比 如 ， 若 电压 值 的 范围 是 0~1, 但 是 我 们 只 能 8 
位 来 存储 ， 所 以 只 能 将 原本 连续 的 电压 值 离散 成 256 个 不 同 的 电压 值 。 取 整 的 过 程 必 然 会 带 来 误 
差 。 尽 管 这 不 是 真正 的 噪声 ， 但 还 是 称 之 为 量化 噪声 〈 或 量化 误差 )。 称 之 为 噪声 是 因为 这 种 错误 
是 在 不 同 的 采样 点 之 间 随 机 出 现 的 。 

量化 质量 使 用 信号 量化 骂 声 比 (SQNR) 来 描述 。 量 化 噪声 是 指 某 个 采样 时 间 点 的 模拟 值 和 
最 近 的 量化 值 之 间 的 差 。 误 差 最 大 可 以 达到 离散 间距 的 一 半 。 

如 果 每 个 采样 点 的 量化 精度 是 N 位 ， 数 字 信 号 的 取 值 范围 是 -2*7! 到 2*"! -1。 因 此 ， 如 果实 
际 的 模拟 信号 的 范围 是 一 Var ~+Vinax ， 那 么 每 个 量化 级 代表 的 电压 是 Wma /2 或 者 Viu /2 。 
信号 量化 噪声 比 可 以 只 考虑 峰值 情况 ， 取 Vuga 为 2” ， 同 时 把 分 母 Viww_noise 取 12。 上 面 两 者 的 
比值 就 是 信号 量化 噪声 比 的 简单 的 定义 2 : 

SONR = 2010gio Vimi - 20logi0 2 一 
Vouan_noise i (6.3) 


=20x N xlog 2 = 6.02N (dB) 


O ”这 个 比率 实际 上 是 峰值 信号 -量化 -噪声 比值 (PSQNR )。 
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换 句 话 说 ， 采 样 点 中 每 个 位 增加 6dB 的 分 辩 率 ， 因 此 16 位 能 够 达到 的 SONR 为 96dB。 

刚才 我 们 研究 的 是 最 坏 的 情况 。 另 一 方面 ， 如 果 我 们 假设 输入 信号 是 正弦 信号 ， 那 么 量化 误 
差 在 统计 上 是 无 关 的 ， 在 0~1/2 量化 间隔 之 间 星 正 态 分 布 。 可 以 证 明 ，SONR 的 表达 式 〈[2] 的 37 
页 ) 是 : 


SONR = 6.02N +1.76(dB) (6.4) 


从 公式 中 可 以 看 出 ，N BK, SONR 越 大 。 这 说 明 对 模拟 信号 的 逼近 越 精确 ， 系 统 能 够 提供 的 音 
质 越 好 。 

一 般 而 言 ， 数 字音 频 采 样 的 精度 是 每 个 采样 8 位 (相当 于 电话 的 音质 ) 或 每 个 采样 16 位 GH 
当 于 CD 的 音质 )。 实 际 上 ， 用 12 位 左右 就 能 很 好 地 再 现 原声 音 了 。 


6.1.6 ”线性 量化 和 非 线性 量化 


前 面 提 到 过 ， 采 样 通常 存储 为 均匀 分 布 的 离散 值 ， 我 们 称 之 为 线性 格式 〈linear format )。 但 
因为 可 用 的 位 数 有 限 ， 我 们 自然 会 想到 应 该 更 加 关注 人 的 听觉 范围 内 声音 ， 所 以 可 以 设置 一 套 非 
线性 量化 体制 使 得 人 有 更 好 的 听觉 享受 。 

我 们 量化 的 是 声音 的 幅度 ， 即 信和 号 的 声音 大 小 。 在 第 4 章 我 们 讨论 了 韦伯 定律 ， 它 指出 声音 的 
一 个 特性 ， 即 声音 自身 的 强度 越 大 ， 就 越 需 要 更 大 的 振幅 来 让 我 们 感受 到 声音 的 变化 。 一 般 来 
说 ， 韦 伯 定 律 指出 ， 要 产生 同样 的 感知 所 需要 的 增幅 是 和 原来 的 绝对 值 是 成 比例 的 : 

A Response œ AStimulus/Stimulus (6.5) 
举 个 例子 ， 如 果 我 们 能 够 感受 到 从 10 磅 到 11 磅 的 变化 ， 那 么 从 20 磅 开始 ， 需 要 增加 到 22 磅 ， 
我 们 才能 感受 到 同样 的 重量 变化 。 
加 入 一 个 固定 系数 k， 我 们 就 有 微分 方程 : 


dr=k(1/s)ds (6.6) 
其 中 * 是 激励 ， 是 响应 值 。 积 分 后 ， 我 们 求 得 解 为 ， 
r=kins+cC (6.7) 
其 中 C 为 积分 常数 。 解 也 可 以 写成 ; 
r=kln(s/so) (6.8) 


其 中 so 是 产生 响应 的 最 小 激励 值 ( 当 s = so 时 ，r =0 )。 

利用 这 一 感知 特性 的 非 均匀 量化 方案 使 用 了 对 数 。 因 为 根据 式 (6.8) 绘制 的 对 数 曲线 显示 ， 
如 果 我 们 沿 着 s 轴 均 匀 增 加 * 值 ， 在 > 轴 得 到 的 不 是 均匀 增加 的 响应 值 。 

我 们 希望 在 r 轴 获 得 均匀 的 增加 值 。 因 此 在 非 线性 量化 中 ， 首 先 把 模拟 信号 值 由 原始 的 * 空 
间 映 射 到 > 空间， 然后 再 均匀 量化 + 空间 的 值 。 这 样 ， 在 信号 值 的 低 端 ，r 轴 上 的 一 个 间隔 在 s 
轴 能 覆盖 很 大 的 范围 ， 在 信号 值 的 高 端 ，* 轴 的 一 个 间隔 能 够 覆盖 > 轴 上 很 大 范围 。 

这 个 用 于 音频 的 定律 称 为 LU 律 (1-law) 编码 (为 了 书写 方便 ， 我 们 也 称 之 为 4 律 )。 哆 洲 的 电 
话 系统 中 也 使 用 了 相似 的 技术 ， 称 为 4 律 (4-law)。 

这 些 编码 算法 的 方程 如 下 : 

His: 


S 


r = 5805) nh <1 (6.9) 


In(i+ u) 














Sp 


A 律 : 


[132 





92 HG) SRARAPHERA 








(6.10) 














其 中 sgn(s) = 


图 6-6 给 出 了 两 个 也 数 的 曲线 。L 律 编码 器 中 一 般 设 1 =100 或 者 1 =255，4 律 编码 器 中 一 般 设 
A=87.6。 l 

公式 中 的 sp 是 信号 的 峰值 ，s 是 信号 的 当前 值 ， 也 就 是 说 s/s, 的 值 域 是 -1~1。 

上 述 定律 的 主要 思想 是 ， 首 先 将 s/s, 转换 成 > 值 ， 再 将 > 值 均匀 量化 ， 然 后 就 可 以 存储 或 者 
传输 信号 。 由 于 人 的 感知 不 一 致 性 ， 这 样 就 可 以 将 大 部 分 的 位 用 于 存储 信号 中 的 改变 容易 被 人 感 
知 的 信息 。 

为 了 说 明 这 个 问题 ， 考 虑 在 图 6-6 P, 15/5, | 在 1.0 附近 发 生 了 小 的 变化 ， 与 此 对 应 的 曲线 非 
常平 坦 。 显 然 ，* 值 在 平坦 区 域 产生 变化 要 远大 于 在 原点 附近 量化 后 r 值 产生 的 变化 。 也 正 是 在 
很 安静 的 环境 中 ， 我 们 能 够 感受 到 声音 的 细微 变化 。 4 律 关注 的 正 是 这 个 范围 的 声音 变化 。 


HER A 


1 


r: pee AE 





-Lr os 06 04 02 0 02 04 06 08 | 


s/sp 


图 6-6 音频 信号 的 非 线性 变换 

编码 时 首先 作 j 律 转换 ， 然 后 对 转换 结果 作 均 匀 量 化 ， 产 生 的 结果 对 于 输入 来 说 是 非 线性 转 
换 。 其 中 的 对 数 函 数 对 于 振幅 小 的 声音 更 加 敏感 。 如 果 我 们 用 固定 数目 的 位 来 编码 声音 ， 音 量 小 
的 声音 产生 的 量化 误差 会 小 于 音量 高 的 声音 。 因此 jy 律 使 得 信 品 比 在 输入 信号 范围 内 分 布 更 加 均匀 。 

这 项 技术 是 基于 人 类 的 感知 的 ， 也 是 最 简单 的 “感知 编码 ”。 有趣 的 是 ， 一 份 有 说 服 力 的 统 
计 表 明 ， 人 类 喜欢 的 音域 也 主要 是 在 低音 区 域 。 所 以 我 们 应 该 把 更 多 的 位 用 在 声音 最 频繁 出 现 的 
区 域 ， 那 里 的 概率 密度 最 高 。 所 以 这 种 编码 技术 也 是 基于 统计 结果 的 。 

总 的 说 来 ， 首 先 对 模拟 信号 做 一 个 对 数 转 换 (电信 业 的 说 法 为 “压缩 ”)， 然 后 进行 采样 ， 再 
将 采样 结果 数字 化 通过 一 个 模 / 数 转换 器 )。 输 入 信号 的 振幅 越 大 ， 压 缩 率 越 高 。 模 / 数 转换 器 对 
“压缩 ”后 的 信号 作 均 匀 量 化 。 编 码 完毕 后 ， 如 果 我 们 要 播放 声音 ， 那 么 就 需要 模拟 信号 ， 此 时 
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就 要 将 编码 后 的 值 转换 回去 ， 首 先 使 用 数 / 模 转 换 器 ， 得 到 模拟 信号 后 ， 通 过 一 个 “扩展 ”电路 作 
反对 数 转换 。 这 个 转换 过 程 称 为 压缩 扩展 。 如 今 ， 压 缩 扩展 技术 在 数字 处 理 领 域 仍然 在 使 用 。 

音频 处 理 中 的 4 律 用 来 对 声音 进行 非 均匀 的 量化 。 总 的 说 来 ， 我 们 愿意 把 更 多 的 位 用 在 人 们 
感觉 最 灵敏 的 声音 区 域 。 在 理想 的 情况 下 ， 应 该 根据 人 对 不 同 刺 激 信 号 所 做 出 的 响应 曲线 来 划分 
位 。 这 样 ， 我 们 可 以 把 位 划分 给 那些 用 较 小 的 激励 就 能 产生 较 大 响应 的 信号 段 。 

压缩 扩展 技术 体现 了 给 信和 号 划分 位 的 一 种 思想 : 尽量 使 得 结果 能 够 获得 更 好 的 分 辨 率 。 这 一 
点 和 以 前 的 均匀 量化 的 思想 是 不 同 的 ， 体 现 了 非 均匀 量化 的 思想 。/jt 律 (或 者 4 律 ) 编码 就 是 这 
种 想法 的 一 个 应 用 。 

6.1.7 ”音频 滤波 

在 进行 采样 和 模 / 数 转换 前 ,常常 需要 对 音频 信号 作 滤 波 以 消除 不 需要 的 频率 。 保留 哪些 频率 
要 取决 于 具体 应 用 。 对 于 语音 信号 ， 一 般 都 保留 50Hz~10kHz 的 频率 。 其 他 频率 成 分 通过 带 通 滤 
波 器 (band-pass filter) 过 滤 掉 ( 带 通 滤波 器 能 够 第 选 出 高 端 信号 和 低 端 信号 , 也 称 为 带 限 滤波 器 )。 

一 段 音 乐 信 号 通常 是 从 20Hz~20kHz (20Hz 是 由 烦躁 的 大 象 发 出 的 低沉 的 声音 ，20kHz 是 我 
们 能 昕 到 的 最 大 尖 叫 声 )， 所 以 音乐 的 带 通 滤波 器 将 第 掉 除 此 之 外 的 频率 。 

在 一 段 信号 中 ， 有 时 候 尽 管 我 们 已 经 将 类 似 噪声 的 高 频 信号 过 滤 掉 了 ， 在 经 过 数 / 模 转换 后 ， 
那些 高 频 信号 会 再 次 出 现 。 这 是 因为 我 们 在 采样 和 量化 时 ， 将 原来 的 连续 平滑 的 信号 转换 成 阶梯 
函数 。 从 理论 上 讲 ， 这 种 离散 的 信号 包含 各 种 可 能 的 频率 成 分 。 因 此 ， 在 解码 器 端 ， 经 过 数 / 模 转 
换 后 需要 使 用 一 个 低 通 滤波 器 〈 其 作用 和 在 编码 器 端 过 滤 高 频 信 号 的 带 通 滤波 器 一 样 )。 

这 里 我 们 还 是 回避 了 一 个 问题 : 在 语音 或 者 音频 应 用 中 ， 每 个 采样 点 需要 多 少 位 。 本 章 的 练 
习 中 会 涉及 这 个 问题 。 

常用 的 音频 文件 格式 包括 AU (用 于 UNIX 工作 站 )、AIFF (用 于 MAC 和 SGI 机 )、WAV (用 
于 PC 和 DEC 工作 站 )。 在 第 14 章 会 讨论 MP3 压缩 文件 格式 。 

6.1.8 音频 质量 与 数据 率 

如 果 在 量化 过 程 中 使 用 的 位 越 多 ， 那 么 未 压缩 数据 的 数据 率 就 会 越 大 。 立 体 声 信 息 所 需 的 带 
宽 是 普通 的 单 声 道 信息 所 需 带 宽 的 两 倍 。 表 6-2 显示 了 音频 质量 和 数据 率 以 及 带宽 之 间 的 关系 。 

在 模拟 信号 系统 中 ， 术 语 带宽 (bandwidth) 指 一 个 器 件 的 响应 能 力 或 者 传输 能 力 。 如 果 用 x 
轴 表 示 频 率 ，y 轴 表 示 传 输 函 数 ， 那 么 带宽 函数 一 般 都 是 常数 函数 。 半 能 量 带宽 (Half-power 
Bandwidth, HPBW) 指 含 有 最 大 能 量 一 半 的 一 段 频率 范围 。 因 为 10logio(0.$) = -3.0 ， 所 以 也 用 
~3dB 带宽 来 表示 HPBW。 

所 以 在 模拟 设备 中 ， 带 宽 使 用 的 是 频率 的 单位 赫 效 (Hz)， 赫 兹 的 物理 意义 是 指 每 秒 的 周期 
数 。 对 数字 设备 ， 在 某 个 固定 带宽 下 能 传输 的 数据 量 用 每 秒 通 过 的 位 (bps) 或 者 每 段 时 间 的 字 节 
数 来 表示 。 不 管 是 模拟 设备 还 是 数字 设备 ， 带 宽 都 是 指 单位 时 间 内 通过 的 数据 量 。 


R62 音频 采样 系统 中 的 数据 率 和 带宽 

BRE GEE) (KB/sec) 
8 8 单 声 道 8 

单 声 道 11.0 











频带 (Hz) 
200~3 400 
100~5 500 





FM 广播 立体 声 88.2 20~11 000 
CD 44.1 立体 声 176.4 5~20 000 
DAT 48 立体 声 192.0 5~20 000 





192 (BRK) 最 高 为 6 信道 1200.0 (ŒK) 0~96 000 (最 大 ) 


136 





94 ” 才 一 厅 分 “ 雪 攀 亿 颖 孝 而 禾 握 天 再 


电话 学 中 使 用 / 律 编码 〈 在 欧洲 使 用 4 律 编码 )。 其 他 的 格式 使 用 线性 量化 。 使 用 式 6.9) 中 
的 4 律 编码 时 ， 可 以 把 数字 信和 号 的 码 字 长 度 从 8 位 扩展 到 12 位 或 13 位 。 

有 时 候 我 们 需要 将 表 6-2 中 的 数据 率 转换 成 以 “ 字 节 /分 ”为 单位 。 例 如 ， 未 经 压缩 的 CD m 
质 的 立体 声 数字 音频 信号 的 数据 率 是 10.6 MB/ 分 ， 取 整 可 以 写成 10MB/ 分 。 


6.1.9 合成 的 声音 


数字 化 的 声音 首先 要 转换 成 模拟 信号 ， 然 后 才能 播放 。 对 于 存储 的 采样 音频 ， 有 两 种 不 同 的 
处 理 方法 。 第 一 种 是 调频 (Frequency Modulation，FM)， 第 二 种 是 波形 表 法 (Wave Table). 

在 第 一 种 方法 中 ， 我 们 通过 在 一 个 载波 正弦 信号 中 加 入 一 个 涉及 调频 信号 的 项 使 原来 的 正弦 
信和 号 发 生 改 变 。 如 果 我 们 使 用 余弦 函数 来 载波 ， 在 余弦 函数 的 参数 中 加 入 第 二 个 余弦 函数 ， 这 样 
就 是 在 求 一 个 余弦 值 的 余弦 ， 结 果 会 得 到 一 个 合成 后 的 声音 。 用 一 个 随时 间 变 化 的 振幅 函数 来 增 
强 整个 信号 ， 用 另外 一 个 随时 间 变 化 的 函数 来 增强 参数 中 的 余弦 信号 ， 从 而 构成 和 声 。 最 后 在 每 
个 余弦 函数 的 参数 中 加 入 一 个 常数 ， 这 样 就 得 到 了 一 个 非常 复杂 的 函数 。 

例如 ， 图 6-7a 显示 了 函数 cos(2rb 的 图 像 ， 图 6-7b 是 cos(47D) 的 图 像 。 图 6-7c 比较 有 趣 ， 它 
显示 了 一 个 余弦 函数 的 余弦 的 图 像 。 图 6-7d 中 显示 了 一 段 调频 信号 ， 载 波 频率 是 2， 调 制 频率 是 
4。 很 显然 ， 如 果 我 们 考察 一 个 更 加 复杂 的 信号 ， 例 如 下 面 的 公式 [3] 所 描述 的 信和 号， 














x(t) = A(t) cos[@, Mt + I(t) COS(OmTL + Om) + Ge] (6.11) 
我 们 可 以 合成 任何 复杂 的 信号 。 
cos(27t) cos(4it) 
1.0 1.0 
05 0.5 
= 0.0 2 0.0 
-0.5 -0.5 
1.0 -1.0 
00 02 04 06 08 10 00 02 04 06 08 10 
时 间 时 间 
a) 单一 频率 b) 两 倍 频率 
cos(cos(41)) cos(2mr + cos(4m)) 
1.0 1.0 
0.0 时 0.0 
0.5 -0.5 
. ” -10 
00 02 04 06 08 10 0.0 02 04 06 08 10 
时 间 时 间 
c) 通常 ，FM 对 一 个 余弦 函数 D 一 种 更 复杂 的 形式 ， 由 余弦 
使 用 一 个 余弦 变量 得 到 信号 中 载波 频率 是 2xt、 调 制 
频率 是 4xt 的 余弦 构成 
图 6-7 调频 


利用 上 面 这 个 调频 方程 ， 我 们 生成 了 一 个 信号 ， 它 的 基本 载波 频率 是 o. ， 调 制 频率 是 cv 。 
在 图 6-74 中 ，@。 =2，wm =4 。 相 位 常数 加 以 及 办 会 产生 一 些 时 间 偏 移 ， 从 而 生成 更 加 有 趣 的 
声音 。 公 式 中 和 时 间 相 关 的 函数 4(0 称 为 包 络 ， 它 描述 声音 在 各 个 时 间 段 的 峰值 ， 可 以 用 来 产生 
声音 的 渐进 增强 或 者 渐进 减弱 的 效果 。 例 如 ， 吉 他 的 琴 弦 有 激发 阶段 (attack period), RAME 
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(decay period). 22 tE} (sustain period) 和 释放 阶段 (release period). 

参数 中 和 时 间 相 关 的 函数 DO 用 来 改变 声音 中 的 调制 频率 ， 使 听 者 产生 和 声 的 感觉 。 如 果 O 
比较 小 ， 我 们 主要 听 到 的 是 低频 的 声音 。 当 7D 较 大 的 时 候 ， 我 们 就 能 够 听 到 较 高 频 的 声音 。 在 
常用 的 Creative Labs Sound Blaster PC 声卡 的 低 端 版 本 中 使 用 了 调频 技术 。 

由 数字 信和 号 合成 声音 的 一 种 更 精确 的 方式 是 波形 表 合成 (wave-table synthesis)。 在 波形 表 合 
成 中 ， 数 字 采 样 存储 的 是 来 自 真 实 乐器 的 声音 。 因 为 波形 表 存储 在 声卡 的 存储 器 中 ， 可 以 通过 软 
件 来 管理 ， 所 以 可 以 对 声音 进行 混 音 、 编 辑 和 增强 等 处 理 。 在 声音 再 现 方面 波形 表 比 调频 有 着 更 
好 的 效果 。 为 了 节约 内 存 空间 ， 还 可 以 应 用 一 些 专门 的 技术 ， 比 如 采样 轮 循 (sample looping). 
移 调 (pitch shifting), 32444) (mathematical interpolation) 以 及 多 项 式 数字 滤波 (polyphonic digital 
filtering) [4，5]。 

例如 ， 如 果 一 首 歌 的 音调 对 于 你 的 嗓音 来 说 太 高 了 ， 那 么 改变 这 首 歌 的 音调 会 非常 有 用 。 可 
以 通过 数学 方法 将 波形 表 作 一 个 移 位 ， 从 而 产生 较 低 的 声音 。 不 过 这 种 扩展 应 用 也 只 能 应 用 在 这 
些 领域 ， 否 则 就 会 产生 声音 误差 。 波 形 表 中 有 时 存储 了 乐器 在 不 同音 调 上 的 采样 值 ， 所 以 改变 音 
调 不 会 产生 很 大 的 影响 。 因 为 数据 的 存储 量 更 大 ， 所 以 使 用 波形 表 比 使 用 调频 开销 更 大 。 


6.2 MIDI: 乐器 数字 化 接口 


波形 表 文 件 提供 了 一 种 准确 再 现 真实 乐器 声音 的 方法 ， 但 是 文件 非常 大 。 对 于 一 些 简单 的 音 
乐 来 说 ， 一 些 调频 合成 器 生成 的 音频 信号 就 能 满足 我 们 的 要 求 ， 通 过 声卡 可 以 很 容易 就 生成 这 些 
声音 。 在 PC 主板 的 扩展 槽 上 增加 一 块 声卡 ， 它 能 够 通过 连接 在 主板 上 的 扩 音 器 处 理 输出 声音 ， 
通过 连接 到 计算 机 上 的 麦克 风 来 录制 声音 ， 还 能 处 理 存储 在 磁盘 上 的 音频 文件 。 

如 果 在 一 些 多 媒体 项 目 中 ， 我 们 想 对 一 些 声音 使 用 声卡 的 默认 处 理 ， 那 么 我 们 可 以 使 用 一 种 
简单 的 脚本 语言 以 及 硬件 设置 方案 一 -MIDI。 


6.2.1 MIDI 概述 


MIDI # Musical Instrument Digital Interface 的 缩写 ， 它 诞生 于 20 世纪 80 年 代 。 它 规定 了 一 
套 被 电子 音乐 界 广泛 采用 的 协议 ， 该 协议 使 得 计算 机 、 合 成 器 、 键 盘 以 及 其 他 一 些 音乐 器 件 能 够 
互相 交互 。 合 成 器 用 来 产生 合成 音乐 ， 它 被 集成 在 声卡 上 ， 采 用 前 文 介绍 的 两 种 合成 方法 中 的 一 
种 。 绝 大 多 数 的 合成 器 都 支持 MIDI 标准 ， 所 以 在 一 个 合成 器 上 生成 的 音频 文件 能 在 另 一 个 合成 
器 上 播放 ， 而 且 播放 效果 非常 相近 。 计 算 机 需要 配 有 专门 的 MIDI 接口 ， 大 部 分 声卡 都 集成 了 这 
一 接口 。 声 卡 还 必须 配 有 数 / 模 转换 器 以 及 模 / 数 转换 器 。 

MIDI 是 一 种 脚本 语言 ， 它 对 代表 某 种 声音 产品 的 “事件 ”编码 。MIDI 文件 一 般 都 非常 小 。 
举 个 例子 ， 一 个 MIDI 事件 可 能 会 包含 一 个 音符 的 音调 、 延 时 和 音量 等 数据 。 

1. 术语 

合成 器 〈synthesizer) 过 去 (现在 也 应 该 是 ) 指 一 个 独立 的 声音 生成 器 。 它 可 以 改变 音调 、 
音量 、 音 色 〈 音 调 就 是 乐器 演奏 的 音 高 一 例如 C 调 ，G 调 )。 它 还 可 以 改变 其 他 的 声音 特性 ， 
例如 激发 时 间 和 延续 时 间 。 一 个 专业 的 合成 器 (音乐 家 使 用 的 ) 配 有 微 处 理 器 、 键 盘 、 控 制 面 板 
和 内 存 等 。 不 过 现在 的 PC 机 的 声卡 中 都 集成 了 比较 廉价 的 合成 器 ， 产 生 声 音 的 模块 一 般 被 称 为 
声音 模块 。 

音 序 器 (sequencer) 最 初 是 指 一 种 用 来 以 MIDI 数据 形式 存储 和 编辑 一 系列 音乐 事件 的 专用 
硬件 。 现 在 多 指 计算 机 上 用 于 编辑 音乐 的 软件 。 

MIDI £ (keyboard) 不 会 产生 声音 ， 而 是 产生 MIDI 指令 序列 ， 这 些 指 令 系 列 称 为 MDI 
消息 。 这 有 点 像 汇编 代码 ， 通 常 只 包含 很 少 的 字 节 。 你 有 时 只 需要 3kB 的 空间 就 能 存储 3 分 钟 的 
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音乐 。 相 比 之 下 ， 一 个 波形 表 文 件 (WAV) 需要 10MB 空间 来 存储 1 分 钟 的 音乐 。 在 MIDI 中 ， 
人 们 习惯 把 键盘 称 为 键盘 控制 器 。 

2. MIDI 的 常用 概念 

在 音 序 器 中 ,音乐 是 按照 音 轨 来 组 织 的 。 在 录音 和 回放 的 时 候 ， 可 以 打开 或 者 关闭 一 个 音 轨 。 
通常 ， 某 种 乐器 和 一 个 专门 的 MDI 通道 相对 应 。MIDI 通道 是 用 来 分 隔 消息 的 。 一 共有 16 个 通 
道 ， 按 照 0~15 编号 。 消 息 的 后 4 位 〈 重 要 性 最 低 的 位 ) 用 来 存储 通道 编号 。 每 个 通道 和 某 种 乐 
器 相对 应 ， 例 如 ， 通 道 1 代表 钢琴 ， 通 道 10 代表 鼓 。 如 果 需 要 ， 可 以 在 中 途 更 换 乐 器 ， 也 可 以 
用 其 他 的 乐器 和 特定 的 通道 相对 应 。 

在 消息 中 ， 通 道 还 可 以 用 作 占 位 符 。 如 果 一 个 消息 的 前 4 位 全 部 是 1， 那 么 这 个 消息 就 被 认 
为 是 系统 通用 消息 。 

除了 通道 消息 (含有 通道 编号 ) 之 外 ， 还 有 其 他 的 一 些 消息 需要 发 送 ， 例 如 通知 所 有 的 乐器 
更 改 基 调 以 及 节拍 的 消息 。 这 些 消息 称 为 系统 消息 。 还 可 以 给 某 个 乐器 通道 发 送 特定 消息 ， 使 得 
该 通道 能 发 出 一 些 事 先 没 有 指定 的 声音 。 后 面 我 们 将 会 详细 介绍 这 些 消 息 。 

合成 乐器 响应 MIDI 消息 的 方式 通常 是 将 不 属于 当前 通道 的 “播放 声音 ”消息 忽略 。 如 果 同 
时 有 几 个 属于 当前 通道 的 消息 ， 就 好 像 在 钢琴 上 同时 奏 响 几 个 音符 ， 那 么 乐器 只 要 是 多 声 部 的 ， 
它 就 会 响应 。 也 就 说 ， 乐 器 会 同时 演奏 几 个 音符 。 

RB EAB (voice) MAE (timbre) 很 容易 混淆 。 后 者 在 MDI 中 是 一 个 专门 术语 ， 特 指 我 
们 想 要 模拟 的 乐器 ， 例 如 钢琴 、 小 提琴 。 它 指 不 同 乐器 各 自 的 声音 特点 ， 如 果 一 个 乐器 (或 者 说 
一 个 声卡 ) 是 多 音色 的 ， 那 么 它 能 够 同时 播放 几 种 不 同 乐器 的 声音 例如， 钢琴 、 忠 司 、 鼓 )。 

另 一 方面 ,“ 声 部 ”有 时 候 也 被 音乐 家 用 来 表示 音色 的 意思 ， 但 在 MIDI 中 ， 声 部 指 一 个 声音 
模块 同时 能 播放 的 不 同 的 音色 和 音调 。 一 个 合成 器 能 拥有 许多 种 声 部 〈 一 般 有 16、32、64、256 
种 )。 每 种 声 部 能 够 独立 工作 且 能 同时 生成 不 同音 色 和 音调 的 声音 。 

术语 复 音 (polyphony) 指 能 同时 发 生出 的 声 部 的 数目 。 一 个 典型 的 语音 模块 应 该 能 够 产生 有 
64 声 部 复 音 。( 指 同时 能 够 发 出 64 种 不 同音 符 )， 同 时 又 是 “16 部 多 音色 ”( 使 声音 有 16 种 乐器 
同时 演奏 的 效果 )。 

不 同 的 音色 是 通过 编 配 程序 (patch) 来 生成 的 。 编 配 程序 是 一 系列 的 控制 指令 ， 通 过 它 来 定 
义 一 个 专门 的 音色 。 编 配 程序 一 般 存储 在 数据 库 里 ， 称 之 为 “音色 库 ”。 一 些 真正 的 发 烧 友 拥有 
专门 的 编 配 程序 编辑 软件 。 

关于 什么 乐器 和 什么 通道 对 应 ， 有 一 个 标准 的 上 映射 机 制 ， 这 个 机 制 获得 大 家 的 一 致 支持 ， 称 
之 为 通用 MIDI (General MIDI)。 在 通用 MIDI 中 ， 有 128 个 编 配 程序 和 标准 乐器 相对 应 ， 第 10 
通道 是 为 打击 乐器 预 留 的 。 

在 绝 大 多 数 乐器 中 , 一 个 典型 的 消息 是 Note On (Hin, 按 下 了 一 个 键 )， 其 中 包含 通道 编号 、 
音调 、 强 度 〈 即 音量 )。 对 于 打击 乐器 ， 音 高 数据 指 用 哪 一 种 鼓 。 因 此 一 个 Note On 消息 包含 一 个 
状态 字 节 (什么 通道 ， 什 么 音调 )， 后 面 是 两 个 数据 字 节 。Note On 消息 后 一 般 跟随 一 个 Note Off 
消息 〈 释 放 一 个 键 )， 该 消息 也 有 特定 的 音调 〈 关 闭 哪 一 个 音符 )， 为 了 保持 一 致 性 ， 还 包含 强度 
数据 〈 一 般 都 设 成 0 ， 或 者 被 忽略 )。 

MIDI 状态 字 节 中 的 数据 的 取 值 从 128~255， 每 个 字 节 的 取 值 从 0~127。 实 际 使 用 中 ， 每 个 
MIDI 字 节 是 8 位 ， 另 外 还 有 一 个 开始 位 ， 一 个 结束 位 ， 这 两 个 位 都 被 设 为 0 ATLA MIDI 中 每 个 
字 节 有 10 位 。 图 6-8 显示 了 一 个 MIDI 数据 流 。 

很 多 的 MIDI 设备 都 是 可 编程 的 ， 这 意味 着 它们 带 有 特定 的 过 滤器 能 够 改变 高 音 、 低 音效 果 ， 
以 及 改变 描述 随时 间 改 变 的 声音 幅 值 包 络 线 。 图 6-9 显示 了 一 个 乐器 对 于 Note On/Note Off 消息 
的 响应 的 模型 。 
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图 6-8 10 位 字 节 数据 流 。 在 典型 的 MIDI 消息 中 ， 流 中 的 信息 是 【状态 字 节 ， 
数据 字 节 ， 数 据 字 节 } = (Note On, Note Number, Note Velocity} 





音符 打开 


图 6-9 一 个 音符 的 振幅 -时 间 图 


MIDI 音 序 器 (编辑 器 ) 允许 你 使 用 标准 音符 来 编辑 ， 如 果 需 要 ， 也 可 以 直接 编辑 数据 。 MIDI 
文件 可 以 存储 波形 数据 。WAYV 文件 的 特点 是 它 可 以 更 加 精确 地 存储 乐器 的 声音 。 采 样 器 用 于 采样 
音频 数据 , 例如 ,，“ 电 子 鼓 ”专门 用 来 存储 真实 鼓 的 WAV 数据 。 
音 序 器 中 使 用 了 一 些 专门 技术 来 利用 已 有 的 音乐 产生 更 多 的 音乐 。 例 如 ， 可 以 在 一 段 音乐 的 
儿 个 小 节 间 循环 。 音量 随 着 时 间 变 得 更 加 容易 控制 ， 这 被 称 为 时 变 振幅 调制 。 更 有 趣 的 是 ， 音 序 
器 也 可 以 实现 时 间 扩 展 或 者 压缩 而 不 会 使 音 高 产生 变化 。 
因为 可 以 改变 一 个 采样 乐器 的 音调 , 所 以 如 果 音 调 改变 很 大 , 那么 得 到 的 声音 就 会 变 得 刺耳 。 
为 了 解决 这 个 问题 , 采样 器 中 使 用 了 多 采样 机 制 。 一 个 声音 在 被 录 下 的 时 候 经 过 多 个 带 通 滤波 器 ， 
记录 结果 被 分 配给 多 个 按键 。 这 样 使 得 音调 变化 带 来 的 频率 变换 更 加 可 信 ， 因 为 每 个 音符 发 生 了 
很 小 的 变化 。 


6.2.2 MIDI 硬件 


MIDI 硬件 中 含有 一 个 31.25kbps 的 串口 连接 ， 其 中 使 用 了 10 位 的 字 节 ， 每 个 字 节 包含 一 个 开 
始 位 和 结束 位 。 一 般 而 言 ，MIDI 器 件 可 能 是 输入 器 件 ， 或 者 是 输出 器 件 ， 不 可 能 两 者 皆 是 。 

图 6-10 是 一 个 常用 的 合成 器 。 调 制 旋钮 用 来 增加 颤音 。 音 调 旋钮 用 来 调节 频率 ， 有 点 类 似 轻 
轻 地 按 在 吉他 的 琴 弦 上 。 还 有 一 些 其 他 的 控制 装置 ， 例 如 脚 踏 板 、 滑 动 条 等 。 

物理 的 MIDI 端口 配 有 分 别 标记 为 IN HHO. OUT 端口 的 5 针 连 接 器 以 及 第 三 个 连接 器 THRU. 
最 后 一 个 数据 通道 只 是 复制 进入 IN 通道 中 的 数据 。MIDI 通信 是 半 双 工 的 。 器 件 通过 MIDIIN 连 
接 器 件 用 于 输入 所 有 的 MIDI 数据 ，MIDI OUT 连接 器 用 于 输出 它 产生 的 MDI 数据 。 设 备 通过 
MIDI THRU 连接 器 响应 它 从 MIDI IN 中 接收 到 所 有 数据 (仅仅 响应 这 些 数 据 ， 器 件 自己 产生 的 
所 有 数据 都 通过 MIDI OUT 输出 了 )。 这 些 端 口 都 在 声卡 上 或 者 在 一 个 接口 上 , 可 能 是 在 PC 扩展 
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槽 上 的 单独 声卡 上 ， 也 可 能 使 用 一 个 专门 的 连接 串口 或 者 并 口 的 接口 。 
键盘 








音调 旋钮 。 调制 旋钮 
图 6-10 MIDI 合成 器 
图 6-11 显示 了 一 个 典型 的 MIDI 音 序 器 设置 。 键盘 的 MIDI OUT 连接 到 合成 器 的 MIDI IN 端 
口 ， 然 后 将 该 合成 器 的 THRU 连接 到 一 些 其 他 的 声音 模块 上 。 在 录音 过 程 中 ， 一 台 带 有 键盘 的 合 
成 器 给 音 序 器 发 送 MDI 消息 ， 音 序 器 记录 这 些 消息 。 在 播放 过 程 中 ， 消 息 从 音 序 器 发 送 到 各 个 
发 声 模块 和 合成 器 ， 最 后 通过 合成 器 来 播放 音乐 。 


























IN THRU 
MIDI 模块 B 


etc. 





图 6-11 典型 的 MIDI 设置 


6.2.3 MIDI 消息 的 结构 


MIDI 消息 可 以 被 分 成 两 种 ， 如 图 6-12 所 示 ， 一 种 是 通道 消息 ， 另 一 种 是 系统 消息 ， 还 可 以 
对 这 两 种 消息 进一步 划分 。 接 下 来 ， 我 们 将 会 对 每 一 种 消息 进行 解释 。 


声 部 消息 
am| 

模式 消息 

通用 消息 
系统 消息 -十 :ms 

专 有 消息 


图 6-12 MIDI 消息 分 类 


MIDI 消息 
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#6-3 MIDI 声 部 消息 












Note Off 


Note On Note On 速度 
Polyphonic Key Pressure 数量 

Control Change 控制 器 值 
Program Change 空 

Channel Pressure 空 


Pitch Bend 


iE: &H 表示 16 进 制 ， 状 态 字 节 中 的 上 是 16 进 制 值 ， 表 示 一 个 通道 号 。 所 有 的 值 都 是 0 到 127， 除 了 控制 器 号 是 0 到 120. 
1， 通 道 消息 


一 个 通道 消息 最 多 3 个 字 节 。 第 1 个 字 节 是 状态 字 节 (操作 码 )， 其 中 的 最 高 位 设置 为 1 。 
四 个 低位 标记 这 个 消息 属于 16 个 通道 中 的 哪 一 个 ， 剩 下 的 3 个 位 用 来 存储 信息 。 对 于 数据 字 节 ， 
最 高 位 可 以 设置 成 0 。 

a) 声 部 消息 

这 种 通道 消息 用 来 控制 一 个 声 部 〈 即 发 布 一 个 音符 播放 或 停止 的 消息 )， 同 时 将 一 个 按键 事件 
编码 。 声 部 消息 还 可 以 用 来 指定 控制 效果 ， 比 如 延 时 、 拌 音 、 闸 音 以 及 音调 变化 。 表 6-3 列举 了 

对 于 Note On 和 Note Off H AKH, WA (velocity) 表示 按键 的 速度 。 一 般 来 讲 ， 对 于 一 个 
高 速 的 按键 ， 合 成 器 应 该 产生 更 加 响亮 和 清脆 的 声音 。Note On 消息 使 得 一 个 音符 出 现 ， 合 成 器 
要 尽量 使 得 这 个 音符 尽量 听 起 来 像 真 实 的 乐器 演奏 效果 。Pressure 消息 可 以 用 来 在 播放 过 程 中 改 
变 音调 。Channel Pressure 消息 是 一 个 通道 〈 乐 器 ) 对 应 的 按键 的 压力 值 ， 在 该 通道 上 播放 的 音符 
都 会 有 同样 的 效果 。 其 他 的 压力 消息 ， 比 如 Polyphonic Key Pressure (ERRA Key Pressure 消息 ) 
设 定 若 是 按 下 多 个 键 ， 应 该 发 出 多 大 的 音量 ， 每 个 音符 应 该 拥有 怎样 的 音量 才能 产生 好 的 和 弦 。 
压力 也 称 作 触 后 (aftertouch)。 

Control Change 指令 用 于 设置 各 种 不 同 的 控制 器 〈 例 如 ， 衰 减 、 赢 音 等 )。 不 同 的 产品 通过 不 
同 的 指令 来 实现 他 们 各 自 的 功能 。 其 中 ，1 号 控制 器 的 功能 类 似 于 调制 按钮 〈 用 于 闸 音 )。 

例如 , 一 个 Note On 消息 后 有 两 个 字 节 ， 一 个 字 节 用 来 设 定 音 符 ， 另 一 个 字 节 用 来 设 定 速度 。 
因此 ， 要 在 13 号 通道 上 以 最 高 速度 来 播放 80 号 音符 ，MIDI 设备 就 会 发 送 下 面 三 个 16 进 制 值 : 
&QHIC&HSO&H7F (16 进 制 数字 范围 是 0~15， 因 为 它 用 来 标记 1~16 号 通道 ,“&HC” 表 示 通 道 
13)。 音 符 被 编号 ， 如 中 音 C 是 60。 

为 了 (有 效 地 ) 同时 播放 两 个 音符 , 首先 我 们 要 发 送 一 个 Program Change 消息 给 每 一 个 通道 。 
Program Change 指 在 一 个 特定 的 通道 上 转载 特定 的 编 配 程序 。 这 样 我 们 就 在 两 个 不 同 的 通道 上 附 
加 不 同 的 音色 。 然 后 顺序 发 送 两 个 Note On 消息 ， 把 两 个 通道 都 打开 。 或 者 ， 我 们 可 以 先 给 一 个 
通道 发 送 Note On 消息 ， 然 后 在 发 送 Note Off 消息 给 这 个 通道 之 前 ， 发 送 另 一 个 Note On 消息 给 
该 通道 〈 此 时 用 另 一 个 音 高 )。 这 样 我 们 就 能 在 一 件 乐器 同时 播放 出 不 同 的 音符 了 。 

Polyphonic Pressure 指 在 多 个 乐器 上 同步 演奏 不 同 的 音符 时 ， 每 个 音符 间 的 强度 。Channel 
Pressure 指 在 一 个 乐器 上 演奏 一 个 音符 时 设 定 的 强度 值 。 

(2) 通道 模式 消息 

通道 模式 消息 是 一 种 特殊 的 Control Change 消息 ， 因 此 所 有 模式 消息 的 操作 码 都 是 B (所 以 
消息 写成 “&HBn” 或 者 “1011nnnn”)。 通 道 模式 消息 的 第 一 个 数据 字 节 是 121~127( 即 &H79~7F)。 
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通道 模式 消息 决定 一 个 乐器 怎样 处 理 MDI 声 部 消息 。 例 如 ， 响 应 所 有 的 消息 ， 只 响应 对 应 
的 通道 ， 完 全 不 响应 ， 或 者 取决 于 乐器 的 本 地 设 定 。 

在 前 面 所 说 的 状态 字 节 “&HBn” 中 , 是 通道 编号 。 数 据 字 节 的 意义 见 表 6-4。Local Control 
Off( 本 地 控制 关闭 ) 表示 断 开 键盘 和 合成 器 的 连接 (其 他 的 外 部 设备 用 来 控制 声音 )。All Notes Off 
(所 有 音符 关闭 ) 是 一 个 非常 方便 的 命令 ， 特 别 是 在 声音 中 出 现 了 错误 的 时 候 ， 我 们 就 需要 它 了 。 
Omni 的 意思 是 设备 响应 所 有 通道 的 消息 。 通常 的 模式 是 OMNI OFF, 即 各 个 通道 只 关注 和 自身 对 
应 的 消息 ， 对 那些 和 本 通道 无 关 的 消息 不 做 响应 。Poly 意味 着 设备 同时 可 以 播放 多 个 音符 。 常 用 


的 模式 是 POLY ON。 
表 6-4 MIDI 模式 消息 
第 一 数据 字 节 描述 第 二 数据 字 节 的 含义 

&H79 重 置 所 有 控制 器 Z; RAO 
&H7A 本 地 控制 O=off; 127=on 
&H7B 所 有 音符 关闭 空 ， 设 为 0 
&H7C 全 向 模式 关闭 Z, 设 为 0 
&H7D 全 向 模式 打开 空 ; 设 为 0 
&H7E 单 声 道 模式 打开 〈 合 聚 模式 关闭 控制 器 号 
&H7F 合 聚 模式 打开 〈 单 声 道 模式 关闭 ) 3; BAO 


在 POLY OFF〈 即 单 音 模式 ) 下 ， 可 以 将 表示 单 音 通道 编号 的 参数 设置 为 0， 此 时 能 播放 的 

声 部 的 数目 取决 于 接收 器 的 默认 设置 ， 它 也 可 以 设置 为 特定 的 通道 编号 。OMNI ON/OFF 以 及 
Mono/Poly 会 产生 四 种 组 合 。 常 见 的 组 合 是 OMNI OFF, POLY ON. 

2， 系 统 消息 

系统 消息 中 不 带 通 道 编 号 , 表明 这 个 消息 不 是 针对 某 一 个 具体 的 通道 , 例如 同步 的 时 钟 信号 ， 
录制 MIDI 序列 前 的 位 置信 息 ,或 者 目标 设备 的 一 些 设置 信息 ,所 有 系统 消息 的 操作 码 都 以 “&HF” 
开始 。 根 据 不 同 的 功能 ， 系 统 消息 可 以 分 成 3 类 。 

(1) 系统 通用 消息 

表 6-5 列 出 了 这 些 消息 。 它 们 都 和 时 间 以 及 位 置 相 关 。Song Position 是 通过 节拍 来 设置 的 。 
这 个 消息 决定 在 接收 到 “播放 ”的 实时 消息 后 ， 播 放 一 些 什么 内 容 。 

(2) 系统 实时 消息 

表 6-6 列 出 了 系统 实时 消息 ， 它 们 主要 是 用 来 处 理 同步 的 。 


表 6-5 MIDI 系统 通用 消息 表 6-6 MIDI 系统 实时 消息 
系统 实时 消息 


















系统 通用 消息 


MIDI Timing Code Timing Clock 
Song Position Pointer 2 Start Sequence 

Continve Sequence &HFB 
Song Select 1 

Stop Sequence &HEC 
Tune Request 无 Active Sensing ZHE 
EOX(terminator) 无 


System Reset 


(3) 系统 专 有 消息 
最 后 一 种 消息 ， 系 统 专 有 消息 ， 使 得 制造 商 可 以 扩展 MIDI 标准 。 在 初始 代码 后 ， 可 以 插入 
应 用 于 它们 产品 的 特定 消息 的 流 。 如 表 6-5 所 示 ， 系 统 专 有 消息 通过 结束 字 节 “&HF7” 来 结束 。 
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不 过 结束 字符 只 是 一 个 可 选项 ， 在 很 多 情况 下 ， 发 送 一 个 新 的 消息 的 状态 字 节 就 可 以 结束 前 一 个 
6.2.4 通用 MIDI 


为 了 使 MIDI 音乐 在 不 同 的 机 器 上 具有 相同 的 播放 效果 ， 我 们 应 该 给 同一 种 乐器 使 用 相同 的 
patch 编号 。 例 如, patch) 应 该 用 于 钢琴 , 而 不 应 该 是 短 号 。 为 此 , 通用 MIDIL5] 是 给 乐器 分 配 patch 
编码 的 一 个 方案 。 标 准 的 打击 乐器 映射 也 规定 了 47 种 标准 的 打击 乐音 色 。 乐 谱 上 出 现 一 个 特定 
的 “音符 ”表明 应 该 发 出 某 一 个 特定 的 打击 乐 的 声音 。 在 本 书 的 网 站 上 有 标准 的 通用 MIDI 乐器 
路 径 映 射 表 ， 以 及 打击 乐 映 射 表 。 

通用 MIDI 还 有 一 些 性 能 要 求 ， 比 如 MIDI 设备 必须 支持 所 有 的 16 个 通道 ， 必 须 支 持 多 音色 
〈 即 每 一 个 通道 能 同时 播放 不 同 的 乐器 效果 )， 支 持 复 音 〈 即 每 个 通道 能 够 播放 不 同 的 声 部 )， 并 
且 必 须 同 时 支持 24 个 动态 分 配 的 声 部 。 

通用 MIDI Level2 . 

它 是 最 近 发 布 的 对 于 通用 MIDI 的 扩展 , 同时 发 布 的 还 有 标准 MIDI 文件 (Standard MIDI File, 
SMF) 格式 。 一 个 非常 有 用 的 扩展 是 在 MIDI 文件 信息 中 加 入 文字 信息 ， 比 如 卡拉 OK 歌词 ， 这 
些 歌词 能 够 在 音 序 器 上 显示 。 


6.2.5 MIDI 到 WAV 的 转换 


一 些 应 用 程序 , 比如 早期 版 本 的 Premiere, 不 支持 MIDI 文件 格式 , 它们 要 求 文件 必须 是 WAV 
格式 。 很 多 共享 软件 能 够 在 这 两 种 文件 格式 间 进 行 转换 。 一 般 这 些 程序 都 含有 一 个 查找 表 文 件 ， 
将 MIDI 消息 转换 成 预定 义 的 WAV 输出 ， 不 过 这 种 转换 并 不 总 是 能 够 成 功 。 


6.3 ”音频 的 量化 和 传输 


为 了 传输 音频 ， 必 须 将 采样 的 音频 信息 数字 化 ， 现 在 我 们 来 详细 讨论 一 下 数字 化 的 过 程 。 信 
息 被 数字 化 后 ， 能 够 很 方便 地 存储 和 传输 。 我 们 通过 一 些 完整 的 例子 来 说 明 我 们 所 讨论 的 内 容 。 


6.3.1 ”音频 的 编码 


数据 量化 以 及 数据 转换 统称 为 数据 编码 (coding)。 对 音频 信号 来 说 ， 除 了 使 用 扩展 压缩 音频 
信和 号 的 4 律 外 ， 还 使 用 一 个 简单 的 算法 来 消除 信号 中 的 即时 元 余 。 将 当前 时 刻 的 信号 和 前 一 时 刻 
的 信号 逐 差 能 够 很 有 效 地 降低 传输 的 数据 量 ， 更 重要 是 ， 因 为 现在 我 们 处 理 的 是 差 值 ， 能 使 这 些 
值 的 分 布 集中 在 一 个 更 小 的 范围 内 。 降 低 了 数据 的 偏差 后 ， 可 以 使 无 损 压 缩 方 法 变 得 更 加 高 效 ， 
从 而 生成 一 些 压缩 率 很 高 的 位 流 。 我 们 将 在 第 7 章 介 绍 这 些 压缩 方法 。 

一 般 来 讲 ， 音 频 信 号 处 理 中 使 用 脉冲 编码 调制 (Pulse Code Modulation, PCM) 来 生成 量化 
采样 输出 。 另 外 一 种 方法 是 差分 脉冲 编码 调制 (还 有 一 个 比较 简单 但 是 很 高 效 的 变 体 ， 叫 做 增 量 
调制 )。 更 进一步 ， 人 们 发 明了 自 适 应 差分 脉冲 编码 调制 (Adaptive Differential Pulse Code 
Modulation，ADPCM)， 此 外 人 们 还 发 明了 考虑 到 语音 特性 的 一 些 版 本 。 在 第 13 章 将 要 介绍 更 复 
杂 的 语音 模型 。 l 


6.3.2 ”脉冲 编码 调制 
1，PCM 概述 


声音 是 模拟 信号 ， 声 波 通过 空气 传播 到 我 们 的 耳膜 ， 我 们 才能 够 听 到 声音 。 我 们 知道 ， 从 模 
拟 信 号 生成 数字 信号 最 基本 的 技术 就 是 采样 和 量化 。 一 般 我 们 都 使 用 均匀 采样 ， 即 我 们 选择 一 个 
采样 频率 ， 然 后 在 每 一 个 采样 周期 中 生成 一 个 采样 值 。 
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在 幅 值 方向 ， 我 们 采用 量化 的 方法 来 完成 数字 化 ， 即 在 幅 值 方向 上 选取 一 些 离散 点 ， 然 后 将 
每 个 间隔 中 得 到 的 值 重 新 映射 到 一 个 表现 输出 层 上 。 间隔 的 边界 集合 有 时 称 为 判定 边界 (decision 
boundary )。 那 些 表现 值 称 为 重 构 层 (reconstruction level). 

映射 到 同一 个 输出 级 别 的 量化 器 输入 间隔 的 边界 形成 编码 器 映射 〈coder mapping)， 量 化 器 
输出 值 的 表现 值 为 解码 器 上 映射 (decoder mapping). HAERERE, 所 以 需要 对 采样 值 确定 一 个 
量化 精度 。 最 后 我 们 可 能 要 做 压缩 ， 给 那些 出 现 频 率 最 高 的 信号 值 赋 一 个 较 小 的 值 来 实现 压缩 。 

每 种 压缩 方案 都 要 经 历 3 个 阶段 : 

1) 变换 (Transformation) 将 输入 数据 转换 为 一 个 更 易于 压缩 或 压缩 效果 更 好 的 表示 。 例 
如 在 预测 编码 中 《〈 将 在 后 面 的 章节 中 讨论 )， 可 以 通过 已 有 的 信号 值 ， 来 预测 下 一 个 信号 值 ， 然 
后 传送 预测 误差 。 

2) RM (Loss) 我 们 需要 引入 信息 失真 的 概念 。 失 真主 要 在 量化 这 一 步 产 生 。 这 里 我 们 只 
能 使 用 有 限 数 量 的 重 构 层 ， 其 数量 比 原始 信号 值 的 数量 小 很 多 。 因 此 量化 过 程 中 必然 会 损失 一 部 
分 信息 。 

3) 编码 (Coding) 我 们 需要 给 每 一 个 输出 层 设 定 一 个 码 字 (通过 它 来 生成 二 进 制 流 )。 码 
字 可 以 是 定 长 的 也 可 能 是 变 长 的 ， 例 如 霍 夫 曼 编 码 就 是 变 长 码 字 (将 在 第 7 章 中 讨论 )。 

对 于 音频 信号 ， 我 们 首先 研究 的 是 PCM。 通 过 它 人 们 想到 了 无 损 预 测 编码 以 及 DPCM 方案 ， 
它们 用 的 都 是 差分 编码 。 最 后 我 们 研究 自 适 应 版 本 ADPCM,， 我 们 期 望 通 过 它 达 到 更 高 的 压缩 率 。 

PCM 是 我 们 在 采样 和 编码 时 使 用 的 一 种 标准 方法 。 称 为 脉冲 是 因为 从 工程 师 的 眼光 看 来 ,， 生 
成 的 数字 信号 可 以 看 成 一 串 垂 直 脉冲 。CD 文件 中 音频 采样 就 是 PCM 的 例子 , 采样 率 为 44.1kHz， 
每 个 采样 点 是 16 位 。 立 体 声 系统 有 两 个 采样 通道 ， 总 的 数据 率 大 概 是 1400kbps。 

2， 语 音 压 缩 中 的 PCM 

在 6.1.6 节 中 ， 我 们 讨论 了 压缩 扩展 ， 它 是 一 种 应 用 在 电话 系统 中 的 ， 对 语音 信和 号 进行 压缩 
和 扩展 的 技术 。 在 这 项 技术 中 ， 首 先 使 用 对 语音 作 44 律 转换 (在 欧洲 使 用 A 律 转换 )， 主 要 是 对 信 
号 作 一 个 对 数 变 换 。 然 后 是 PCM， 使 用 均匀 量化 。 结 果 就 是 我 们 更 加 关注 语音 中 低音 变化 ， 而 忽 
略 了 高 音 部 分 的 细微 变化 。 

假设 语音 的 频率 范围 是 50Hz~10kHz， 根 据 奈 奎 斯 特定 理 ， 采 样 率 至 少 是 20kHz。 如 果 使 用 
没有 压缩 扩展 的 均匀 采样 ， 每 个 采样 点 至 少 需要 12 位 。 因 此 ， 对 于 一 路 音频 传输 ， 数 据 率 应 该 
是 240kbps。 如 果 使 用 压缩 扩展 ， 可 以 在 得 到 同样 的 语音 效果 下 将 每 个 采样 点 减少 到 8 位 ， 数 据 
率 也 相应 减少 到 160kbps。 但 是 ， 在 标准 的 电话 系统 中 ， 认 为 我 们 能 够 发 出 的 最 高 频率 是 4kHz。 
因此 采样 率 是 8kHz， 压 缩 扩展 的 数据 率 仅 仅 是 64kbps。 

虽然 语音 压缩 相对 比较 简单 ， 还 是 要 交代 两 个 细节 ， 以 便 大 家 能 对 它 有 正确 的 认识 。 第 一 ， 
因为 我 们 最 多 只 考虑 了 4kHz 的 声音 ， 其 他 的 声音 都 被 认为 是 噪声 。 因 此 在 输入 模拟 信号 的 时 候 ， 
需要 将 其 中 的 高 频 成 分 清除 掉 。 我 们 使 用 一 个 带 限 滤波 器 来 完成 这 个 工作 ， 它 能 够 阻 断 高 频 信和 号 
以 及 极 低频 的 信号 。 没 有 被 清除 的 频带 正 是 我 们 想 要 保留 的 。 这 种 滤波 器 也 称 为 带 通 滤波 器 。 

第 二 ， 当 我 们 已 经 成 功 地 得 到 了 脉冲 信号 ， 如 图 6-13a 所 示 ， 我 们 仍然 需要 执行 数 / 模 转 换 ， 
然后 重新 生成 模拟 信号 。 但 是 我 们 得 到 的 信号 是 阶梯 形 的 信号 (如 图 6-13b 所 示 )。 这 种 离散 的 信 
号 不 仅仅 包含 原始 信号 的 频率 成 分 ， 而 且 因为 信号 中 有 不 平滑 的 拐角 ， 所 以 根据 傅 里 叶 分 析 的 理 
论 ， 这 个 信号 中 有 无 穷 多 的 高 频 信号 。 我 们 知道 这 种 信号 是 后 来 引入 的 ， 所 以 我 们 在 数 / 模 转 换 器 
的 输出 端 安装 一 个 低 通 滤波 器 , 它 只 允许 低 于 原始 信号 频率 最 大 值 的 信号 通过 。 图 6-14 显示 了 编 
码 和 解码 电话 信号 的 方案 。 因 为 低 通 滤波 器 的 作用 ， 输 出 信号 变 得 平滑 ， 如 图 6-13c 所 示 。 为 了 
简单 起 见 ， 图 6-13 中 没有 显示 压缩 扩展 的 效果 。 
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原始 信号 











b) 解码 的 阶梯 信号 c) 低 通 滤波 后 重 构 的 信号 


图 6-13 PCM 


入 本 
传输 
出 入 模拟 
人 人 通 滤 ; / 率 或 4 率 
ne 低 通 滤波 H pa + 数 模 转 换 器 


图 6-14 PCM 信和 号 的 编码 和 解码 


A 律 或 / 律 PCM 编码 被 国际 电报 电话 咨询 委员 会 〈CCITT) 的 标准 G.711 采用 ， 用 于 数字 电 
话 。CCITT 的 这 一 标准 现在 包含 到 ITU 的 新 标准 中 。 


6.3.3 ”音频 的 差分 编码 


音频 不 仅仅 可 以 通过 PCM 编码 来 存储 ， 还 可 以 用 差分 编码 的 形式 存储 。 最 起 码 ， 差 分 值 都 
比 原来 的 信号 值 小 ， 可 以 使 用 更 小 的 空间 来 存储 。 

求 取 差 分 的 一 个 优点 是 差分 信号 的 分 布 图 比 原始 信号 的 分 布 图 更 加 集中 。 例 如 ， 考 虑 一 种 极 
端 情况 ， 按 照 固定 斜率 递增 的 信号 的 分 布 图 是 均匀 的 。 然 而 该 信号 导数 的 分 布 图 〈 即 相连 采样 点 
之 间 的 差 值 ) 在 原 信号 的 斜率 值 那 一 点 会 有 一 个 峰值 。 

一 般 来 讲 ， 如 果 一 个 和 时 间 相 关 的 信号 随时 间 变 化 存在 一 些 临时 元 余 ， 那 么 把 当前 信号 值 和 
前 一 个 信号 值 相 减产 生 的 差分 值 将 会 在 分 布 图 上 产生 一 些 峰 值 ， 在 0 附近 会 有 最 大 值 。 因 此 ， 如 
果 我 们 给 差分 值 分 配 码 字 ， 可 以 给 出 现 频率 高 的 值 分 配 较 短 的 码 字 ， 给 出 现 频率 低 的 值 分 配 较 长 
的 码 字 。 
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下 面 我 们 将 首先 介绍 无 损 编 码 。 当 我 们 进行 量化 的 时 候 ， 必 然 会 带 来 信息 失真 。 如 果 我 们 不 
使 用 量化 ， 也 是 可 以 进行 压缩 的 ， 通 过 逐 差 的 方法 ， 减 小 信号 值 的 变化 范围 ， 这 样 跟 原始 信号 相 
比 ， 就 会 有 压缩 效果 。 第 7 章 将 介绍 一 些 比较 复杂 的 无 损 压 缩 方法 ， 我 们 先 看 一 种 比较 简单 的 方 
法 。 使 用 量化 ， 预 测 编码 变 成 了 DPCM， 这 是 一 种 有 损 编 码 。 我 们 也 会 介绍 那 种 方法 。 


6.3.4 无损 预测 编码 


预测 编码 最 基本 的 想法 就 是 传输 差分 值 。 我 们 预测 下 一 个 采样 值 和 当前 采样 值 相等 ， 我 们 不 
发 送 具体 的 采样 值 ， 而 是 发 送 采 样 值 和 预测 值 的 误差 。 如 果 我 们 预测 下 一 个 采样 值 和 前 一 个 采样 
值 相 等 ， 那 么 误差 就 是 前 一 个 采样 点 和 后 一 个 采样 点 之 间 的 差 。 我 们 还 可 以 使 用 更 加 复杂 的 预测 
策略 。 

但 是 ， 注 意 一 个 问题 。 如 果 整 数 采 样 值 的 范围 是 0~255， 那 么 差分 值 的 范围 是 -255~255。 所 
以 我 们 不 得 不 把 动态 范围 (dynamic range) 扩大 一 倍 。 我 们 传送 差 之 前 需要 更 多 的 位 。 不 过 我 们 
可 以 使 用 一 个 小 技巧 来 解决 这 个 问题 。 

简单 一 点 讲 ， 预 测 编码 包括 求 差 值 以 及 传输 差 值 两 部 分 。 首 先 使 用 6.3.2 节 介 绍 的 一 个 PCM 
系统 。 我 们 应 该 注意 到 一 个 整数 的 差 值 依然 是 整数 。 下 面 我 们 用 形式 化 的 方法 来 描述 我 们 的 工作 。 
用 表示 信号 值 ， 记 表示 预测 值 ，e 表示 实际 信号 和 预测 信号 之 间 的 差 。 

tn = fn-1 

én = fa~ fn 
我 们 当然 希望 差 值 e 能 尽量 小 , 因此 我 们 也 就 希望 预测 值 能 尽量 接近 真实 值 。 对 于 某 个 信号 序列 ， 
用 以 前 的 一 些 值 (如 ff-2, fas) 组 成 的 函数 能 够 更 好 地 预测 fF, 。 一 般 来 说 ， 人 们 用 一 个 线性 
函数 来 进行 预测 。 


(6.12) 


2~4 
fn = >》 ank fak (6.13) 
k=] 


一 般 要 对 预测 函数 得 到 的 预测 值 进行 取 整 ， 求 得 一 个 整数 预测 值 。 在 公式 中 ， 我 们 需要 设置 系数 
an-:， 所 以 我 们 可 以 自行 的 调整 这 些 参 数 〈 参 见 6.3.7 节 )。 

逐 差 的 主要 目的 是 为 了 让 采样 值 的 分 布 更 加 集中 。 lin, 图 6-15a 显示 了 1 秒 钟 的 采样 语音 ， 
采样 频率 是 8kHz， 每 个 采样 点 的 精度 是 8 位。 

如 图 6-15b 所 示 ， 这 样 采 样 点 集中 分 布 在 0 周围 。 图 6-15c 显示 了 对 应 的 语音 信号 差分 值 的 
分 布 图 。 和 原始 采样 值 相 比 ， 差 分 值 在 0 周围 的 聚集 度 更 高 。 因 此 ， 按 照 较 短 码 字 分 配给 出 现 频 
率 高 的 值 的 原则 ， 我 们 将 最 短 的 码 字 赋 给 0 以 节约 存储 空间 。 对 差 值 使 用 这 种 编码 方法 比 对 原始 
值 使 用 这 种 编码 手段 效果 要 好 很 多 。 如 果 使 用 更 好 的 预测 手段 ， 其 效果 也 会 比 仅 仅 使 用 前 一 个 采 
样 值 作 预 测 值 更 好 。 

现在 ， 我 们 还 有 一 个 问题 没有 解决 ， 如 果 一 个 差分 值 集合 包含 一 些 特别 大 的 差分 值 ， 我 们 应 
该 怎么 处 理 ? 为 了 解决 这 个 问题 ， 我 们 需要 在 我 们 的 差分 值 列 表 中 定义 两 个 新 的 码 字 shi ft -Up 
和 shift-Down， 我 们 用 SU 以 及 sD 来 指 代 它 们 。 它 们 在 编码 中 会 取 两 个 特殊 的 值 。 

假设 采样 值 的 范围 是 0~255, 差分 值 的 范围 是 -255~255。 我 们 定义 Su. sp 代表 增加 /减少 32。 
BA, 我 们 就 可 以 为 一 组 有 限 的 信号 差 值 ~15~16 定义 码 字 。 差 分 值 原始 取 值 范 围 是 -255~255, 在 
-15~16 范围 内 的 信号 差分 值 可 以 按照 前 面 讨 论 的 方法 编码 ， 如 果 一 个 信号 差分 值 不 在 这 个 范围 
内 ， 那 么 我 们 用 一 系列 的 递增 /递减 再 加 上 一 个 -15~16 范围 内 的 值 来 进行 转换 。 例 如 100 可 以 写 
成 SU、SU、SU、4。 
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0.04 
z 0.0 x 
-0.04 
6000 8000 -i0 05 00 05 LO 
采样 














0 2000 4000 








采样 
a) 数字 语音 信号 b) 数字 语音 信号 值 的 柱状 图 
wR 
-i0 -5 00 05 1.0 
采样 差分 


c) 数字 语音 信号 差分 的 柱状 图 
图 6-15 “差分 集中 柱状 图 


无 损 预测 编码 的 最 主要 的 特点 是 无 损 。 也 就 是 说 ， 解 码 后 获得 信号 应 该 和 原始 信号 值 一 致 。 
用 一 定 的 篇 幅 来 讨论 这 个 内 容 对 我 们 理解 本 书 会 更 有 帮助 ， 所 以 我 们 在 这 里 进行 详细 讨论 (我 们 
不 使 用 非常 复杂 的 方案 ， 但 是 我 们 会 给 大 家 显示 完整 的 计算 过 程 )。 举 一 个 简单 的 例子 ， 假 设 我 
们 通过 下 面 的 公式 来 求 预测 值 广 : 


hsi atA] 
en = fa- fn 


(6.14) 


我 们 实际 传输 的 是 误差 值 e, 。 
我 们 来 考虑 一 个 特例 。 假 设 我 们 要 给 序列 fi, fo, fs, fa, fs=21, 22, 27, 25, 22 进行 编码 。 为 
了 进行 预测 编码 ， 我们 首先 要 设 定 一 个 信号 值 六 ,我 们 把 它 设 成 和 fi 相等 。 首先 要 传输 的 值 是 无 


需 进 行 编码 的 初始 值 。 事 实 上 ， 每 一 种 编码 机 制 都 需要 头 信息 的 开销 。 
然后 ， 开 始 传输 第 一 个 误差 值 e = 0 。 接 下 来 是 


=21, es=22-21=1 

fs -| ;+ 月 |-| ez+zp|-a 
2 2 

e3 =27-21=6 

f= Fa + fo = 区 22) =24 

e, =25-24=1 

fs=|5ct+49|-| 405427 |=26 

és = 22-26=-4 


(6.15) 
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150 大 家 可 以 看 见 ， 误 差 值 集中 在 0 的 附近 ， 所 以 编码 (给 信号 值 分 配 码 字 ) 会 有 较 好 的 效果 。 

) | 图 6-16 是 这 种 编码 系统 的 示意 图 。 注 意 ， 预 测 器 生成 预测 值 f, 。 而 这 个 预测 值 总 是 基于 

153) fao fn-2,… 因此 在 预测 器 中 需要 配 有 内 存 。 在 预测 器 中 , 至 少 需 要 一 个 电路 能 够 将 前 一 个 信号 值 
fn-! 延 时 一 个 操作 周期 。 





a) 编码 器 





e, oO ER S, 
预测 器 = 


b) 解码 器 
图 6-16 ”预测 编码 的 示意 图 





6.3.5 DPCM 

差分 脉冲 编码 调制 (DPCM) 和 预测 编码 类 似 ， 只 是 它 含 有 一 个 量化 步骤 。 量 化 步骤 和 PCM 
中 的 量化 步骤 类 似 ， 可 以 是 均匀 量化 ， 也 可 以 是 非 均匀 量化 。 有 一 种 Lloyd-Max 量化 法 ， 它 通过 
求解 误差 项 的 最 小 方差 值 ， 求 得 最 好 的 非 均匀 量化 坐标 值 集合 ， 这 种 方法 是 用 Stuart Lloyd 以 及 
Joel Max 来 命名 的 。 

我 们 在 这 里 约定 一 些 记号 。 我 们 记 原 始 信 号 为 f, ， 预 测 信 号 为 户 ， 量 化 后 重 构 的 信号 为 六 。 
DPCM 所 做 的 操作 流程 是 ， 首 先生 成 预测 值 ， 然 后 用 原始 信号 值 减 去 预测 信号 值 生 成 误差 值 e, ， 
接着 将 误差 值 量化 ， 得 到 量化 后 的 误差 值 6 。 可 以 用 如 下 的 方程 来 描述 DPCM: 

tr = function _of (faa, fa-2 fray") 
en = Sn 一 fr 
én = Qle,] l (6.16) 
传输 codeword (é, ) 
重建 : fr = fr +é, 
RIVER RRS PUBNBED 7 章 中 讨论 的 赫 夫 曼 编码 来 生成 量化 后 的 误差 值 2 的 对 应 
154| BF. 


请 注意 ， 预 测 都 是 基于 量化 重 构 后 的 信号 值 的 。 这 么 做 的 主要 原因 是 ， 这 样 在 编码 阶段 使 用 
的 信息 在 解码 阶段 同样 能 够 得 到 。 如 果 我 们 在 预测 的 时 候 , 错误 地 用 原始 信号 值 fa 而 不 是 预测 值 


户 ， 那 么 量化 误差 就 会 被 累积 起 来 ， 使 得 最 后 误差 不 再 在 0 附近 分 布 。 

编码 /解码 的 主要 作用 是 生成 离散 化 的 、 可 重 构 的 信号 值 元 = 久 +z 。 我 们 使 用 平均 方差 
[Fe — fa)? N 来 衡量 信号 的 “失真 率 ”， 我 们 也 经 常 看 到 信号 值 位 数 和 失真 率 的 关系 图 。 
Lloyd-Max 量化 产生 的 失真 比 均匀 量化 效果 要 小 。 

对 于 一 些 信 号 ， 我 们 需要 选择 量化 的 步 长 ， 使 得 它们 能 够 和 信号 值 的 上 下 界 相 匹配 。 即 使 我 
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们 使 用 的 是 均匀 量化 ， 这 样 的 工作 也 是 有 效果 的 。 在 语音 处 理 中 ， 我 们 可 以 通过 求 得 一 段 语音 的 
平均 值 、 方 差 ， 然 后 再 调整 量化 步 长 来 得 到 合适 的 步 长 。 也 就 是 说 ， 在 时 刻 i， 我 们 取 一 段 语 音 ， 
其 中 含有 个 采样 值 f, ， 我 们 要 使 得 下 面 公式 表示 的 量化 误差 最 小 : 


min S (fn -Afa D? (6.17) 


因为 信号 的 差分 值 分 布 非常 集中 ， 我 们 可 以 使 用 Laplacian 概率 分 布 函数 来 描述 它 。Laplacian 的 
分 布 [6] 也 是 非常 集中 在 0 周围 ， 概 率 分 布 函 数 为 1(x) = / V207 Jexp(—V2|x|/0) ， 方 差 值 为 0? 。 
一 般 来 说 , 我 们 假设 信号 的 差分 值 4, RE Laplacian 分 布 , 然后 为 量化 器 选择 合适 的 量化 步 长 (可 
以 是 非 均匀 的 )。 量 化 步 长 的 选择 标准 是 要 能 使 得 下 面 的 公式 有 极 小 值 ; 


i+N-1 
min 》 (dn -Qidn]) (dn) (6.18) 


这 是 平方 极 小 值 的 问题 ， 可 以 通过 Lloyd-Max 量化 器 来 迭代 求解 。 

图 6-17 是 DPCM 编码 /解码 器 的 示意 图 。 由 于 图 看 上 去 很 普通 ， 所 以 有 一 些 特点 很 容易 被 忽 
视 。 第 一 ， 预 测 器 使 用 的 是 重 构 的 、 量 化 的 信号 值 户 ， 而 不 是 真实 的 信号 值 f, 。 也 就 是 说 ， 在 
编码 器 的 预测 模块 中 已 经 实现 了 解码 的 功能 。 量 化 器 可 以 使 用 均匀 量化 也 可 以 使 用 非 均匀 量化 。 





b) 解码 器 
6-17 DPCM 的 示意 图 


在 示意 图 中 标记 “符号 编码 器 ”的 方 框 一 般 指 雹 夫 曼 编码 器 ， 我 们 将 在 第 7 章 中 详细 介绍 这 
个 步骤 。 在 生成 预测 值 有 时 ,我们 需要 使 用 以 前 的 一 些 预 测 值  ， 因 此 我 们 就 需要 缓存 这 些 预 测 
值 。 值 得 注意 的 是 ， 量 化 噪声 fn- fa 和 对 差分 值 量化 产生 的 误差 e, -6 是 相等 的 。 

使 用 真实 数据 有 助 于 我 们 更 好 地 理解 编码 过 程 。 假 如 我 们 使 用 下 面 的 预测 器 ， 


fr = trunc| (fai + fr-2)/2| (6.19) 


en = fn -六 是 一 个 整数 。 
使 用 下 面 的 公式 来 进行 量化 : 
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én = Olen] = 16* trunc[(255 + e, }/16]—256+8 


fn =fntén 
首先 我 们 注意 到 ， 误 差 的 范围 是 -255~255， 也 就 是 说 ， 
误差 可 能 有 511 种 取 值 。 量 化 器 把 误差 值 划分 成 32 块 ， 每 一 
块 在 原始 信和 号 中 跨越 16 个 取 值 范围 。 
表 6-7 给 出 了 输入 信号 值 的 输出 值 ，4 位 编码 以 阶梯 函数 
的 形式 映射 到 32 个 重 构 值 (注意 , 最 后 一 个 区 间 只 有 15 ME, 
而 不 是 16 ME). 
举 一 个 信号 流 的 例子 。 考 虑 如 下 信和 号 值 集合 ; 
fi fh fs fe fs 
130 150 140 200 230 
我 们 假设 在 数据 流 中 f 取 值 和 信号 值 fi 一 致 ， 也 就 是 
f=130。 量 化 的 初始 误差 为 6 =0 ， 这 样 我 们 的 第 一 个 重 构 值 
为 有 =130 。 后 续 的 值 列举 在 下 面 的 表格 中 〈 方 框 中 的 是 初始 
(EL): 
= BO 130, 142, 144, 
= 加 20, -2, 56, 
= 四 2, -8 56, 
= [30 154, 134, 200, 


Myr I DW ~ 


(6.20) 
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解码 的 时 候 ， 我 们 同样 假设 初始 值 了 和 态 一 致 ， 这 样 第 一 个 重 构 值 就 是 户 。 只 要 我 们 使 用 相同 的 
预测 规则 ， 我 们 接收 到 的 是 误差 值 & ， 这 样 重 构 值 fa 和 编码 阶段 是 一 致 的 。 


6.3.6 DM 


DM Æ Delta Modulation 〈 增 量 调制 ) 的 缩写 ， 它 是 DPCM 的 简化 版 本 ， 常 常 作 为 一 个 快速 


的 模 / 数 转 换 器 。 为 了 保持 内 容 的 完整 性 ， 下 面 将 介绍 这 种 方法 。 


1. 均匀 Delta DM 


DM 的 主要 思想 是 仅仅 使 用 唯一 的 量化 值 ， 该 值 可 以 是 正 数 也 可 以 是 负 值 。 这 种 只 使 用 一 位 


的 编码 使 得 原始 信号 编码 后 呈 阶 梯形 状 。 相 关 方 程 组 如 下 所 示 : 


hn = fs 
en = 所 -所 =f -fu 


+k WR e, >0, 其 中 大 是 常数 (6.21) 


én = 

én <0 
fa =f, +é, 

注意 ， 这 样 的 预测 方法 只 有 一 个 时 延 。 


我 们 现在 来 举 一 个 具体 数值 的 例子 。 假 设 我 们 有 如 下 的 一 列 信号 值 : 


i fi fh fh 
10 11 13 15 
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我 们 也 设 初 始 的 重 构 值 为 = f=10。 

假设 我 们 把 步 长 值 设 为 k=4， 就 能 得 到 下 面 的 值 : 
fo=10, ep =11-10=1, &=4, f,=10+4=14 
fr=14, e, =13-14=-1, &=-4, f =14-4=10 
fr=10, e,=15-10=5, &=4, fy=10+4=14 


我 们 发 现 重 构 值 10、14、10、14 与 原始 值 10、11、13、15 的 偏离 并 不 是 太 大 。 

可 以 看 出 ， 在 信号 基本 上 维持 常数 值 而 很 少 变动 时 ， 使 用 DM 会 有 很 好 的 效果 ， 但 是 如 果 信 
号 变化 很 剧烈 ， 效 果 就 不 理想 了 。 解 决 这 种 问题 的 一 个 简单 的 方法 就 是 提高 采样 频率 ， 可 以 提 到 
奈奈 斯 特 采样 率 的 若干 倍 。 通 过 这 种 方法 , DM 可 以 成 为 一 种 比较 简单 但 也 比较 有 效 的 模 / 数 转换 器 。 

2， 自 适应 DM 

如 果 信号 波形 非常 陡峭 ， 那 么 阶梯 状 的 允 近 就 不 会 有 很 好 的 效果 。 处 理 陡峭 波形 的 一 个 简单 
方法 就 是 自 适应 地 变化 步 长 值 x， 也 就 是 说 ， 根 据 信 号 当前 的 特点 来 设 定 步 长 值 。 


6.3.7 ADPCM 


自 适应 DPCM 的 思想 就 是 自动 调整 编码 机 制 使 得 它 能 更 好 地 适应 输入 值 .DPCM 编码 器 最 主 
要 有 了 两 个 部 分 ， 量化 器 和 预测 器 。 在 上 文 提 及 的 自 适应 DM 中 ， 我 们 调整 量化 器 的 步 长 去 适应 输 
入 。 在 DPCM 中 ， 我 们 可 以 自 适 应 地 调整 量化 器 ， 包 括 调整 步 长 以 及 在 非 均匀 量化 中 调整 判别 
边界 。 
我 们 可 以 通过 两 种 方式 来 实现 这 种 目标 ， 使 用 输入 信号 的 特点 我 们 称 为 前 向 自 适 应 量化 )， 
或 者 使 用 量化 输出 信号 的 特点 。 如 果 量 化 误差 太 大 ， 我 们 需要 修改 非 均 匀 Lioyd-Max 量化 器 (我 
们 称 为 后 向 自 适应 量化 )。 

我 们 也 可 以 使 用 前 向 或 者 后 向 的 方法 来 调整 预测 器 。 一 般 称 自 适应 变化 预测 系数 的 编码 方式 
为 自 适应 预测 编码 (Adaptive Predictive Coding，APC)。 这 种 方法 的 具体 实现 非常 有 趣 。 前 面 讲 
过 ,预测 器 一 般 是 已 有 的 重 构 量化 信号 值 5 的 线性 函数 。 我 们 称 一 个 预测 器 使 用 的 以 前 的 预测 值 
的 数目 为 预测 器 的 阶 〈order)。 例 如 ， 如 果 我 们 使 用 了 M 个 以 前 的 预测 值 ， 我 们 在 下 面 的 预测 器 
中 需要 M 个 系数 ai (i=1,---,M ): 


A M ~ 
tn = dah (6.22) 
i=] 
从 公式 中 我 们 可 以 看 出 ， 系 数 w 与 以 前 量化 的 值 相 乘 。 如 果 我 们 要 修改 这 组 系数 ， 就 会 遇 到 一 个 
难题 ， 我 们 需要 求解 一 组 及 其 复杂 的 方程 组 。 假 设 我 们 使 用 最 小 二 飞 法 来 求解 这 个 极 小 值 问题 ， 
希望 能 够 求解 到 a; 的 最 优 解 : 


min Efa- A (6.23) 
n=l 
在 公式 里 ， 我 们 需要 为 当前 语音 段 中 大 量 的 采样 点 f, 求 和 。 因 为 名 是 量化 值 ， 我 们 还 有 一 些 其 
他 难题 要 解决 。 同 时 ， 我 们 也 需要 实时 保证 量化 过 程 的 正确 性 ， 以 适应 信号 不 断 变 化 的 特点 ， 这 
使 得 问题 更 加 复杂 。 
相反 ， 我 们 转 而 求解 一 个 简单 一 点 的 问题 ， 我 们 在 最 小 二 乘法 中 ， 不 使 用 预测 重 构 值 和 ， 而 
使 用 原始 信号 值 f, 。 这 使 得 问题 变 得 容易 解决 ， 因 为 如 果 带 入 系数 a; ， 我 们 要 求解 的 问题 是 
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N M 
min 》( 户 -> ai fai)? (6.24) 
n=l i=l 
注意 其 中 a 的 取 值 ， 将 其 中 的 一 部 分 设置 为 0， 我 们 就 得 到 一 个 易 解 的 M 个 方程 的 线性 系统 (这 
组 方程 被 称 为 Wiener-Hopf 方程 组 )。 
这 样 ， 我 们 就 找到 了 一 种 自 适 应 改变 预测 器 的 方法 。 对 于 语音 信号 来 说 ， 考 虑 一 组 语音 值 是 
很 常见 的 ， 就 像 对 一 幅 图 像 进行 编码 ， 我 们 可 以 自 适应 地 修改 预测 器 、 量 化 器 ， 或 者 两 者 同时 改 
动 。 如 果 我 们 使 用 8kHz 来 采样 ， 常 把 128 个 采样 点 作为 一 个 语音 段 一 一 大 概 是 16 毫秒 的 语音 。 
图 6-18 显示 了 ADPCM 的 编码 和 解码 [7] 的 示意 图 。 


64kbps A XER u fn en 
率 PCM 输入 一 | 转化 为 均匀 PCM ODi i 








一 一 自 适应 预测 器 In 
fa 


a) 编码 器 





64kbps A 率 或 
u Æ PCM 输出 


b) 解码 器 
图 6-18 ADPCM 示意 图 


6.4 进一步 探索 

研究 人 员 在 使 用 音频 帮助 视力 有 缺陷 的 人 士 方面 正在 进行 大 量 的 工作 。 一 项 技术 是 使 用 音频 
来 协助 显示 HTML 结构 ，[8，9，10] 这 几 篇 论文 中 提供 了 一 些 富有 创造 性 的 想法 。 

Pohlmann 的 书 [2] 是 了 解数 字 化 .SNR、SQNR 的 极 佳 的 参考 资料 本 书 网 站 上 第 6 章 的 Further 
Exploration 部 分 中 将 详细 介绍 音频 量化 中 的 1 律 。 下 面 是 一 些 其 他 一 些 有 用 的 链接 : 

。 关 于 使 用 FM 合成 语音 的 讨论 。 

。 关于 语音 文件 格式 的 一 个 比较 全 面 的 列表 。 
一 个 关于 不 同 CD 音频 文件 格式 的 详细 描述 。 各 种 音频 文件 之 间或 多 或 少 有 一 些 差别 。 主 
要 的 音乐 格式 是 red book audio。 
一 个 通用 MIDI 乐器 的 Patch Map， 以 及 一 些 通用 MIDI 打击 乐 的 基调 Map. 
一 个 关于 MIDI 音乐 合成 和 波形 表 音 乐 合成 方法 的 很 好 的 教程 。 
一 个 关于 使 用 Java 来 解码 MIDI 数据 流 的 链接 。 
一 个 很 好 的 多 媒体 /声音 页 面 ， 提 供 了 很 多 的 Internet 上 的 声音 和 音乐 资源 。 
一 个 面向 表演 艺术 的 站 点 ， 其 中 有 很 多 的 关于 音频 的 资料 ， 内 容 包 括 许 多 术语 的 定义 ， 信 
号 处 理 ， 以 及 声音 体验 。 
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6.5 练习 


1. 


我 的 旧 SoundBlaster 声卡 是 8 位 卡 。 
Ca) 这 里 的 8 位 是 指 什么 是 8 位 ? 
Cb) 它 最 好 能 提供 什么 样 的 SQNR? 


.如 果 一 个 耳塞 能 把 噪声 降低 304B， 那 么 它 一 共 降 低 了 多 少 强度 (能量) ? 
， 因 为 存储 介质 “如 磁带 ) 以 及 音频 放大 器 的 频率 响应 函数 ， 音 频 输 出 时 在 听觉 所 及 范围 的 上 


下 边缘 的 信息 损失 是 不 可 避免 的 。 

(a) 如 果 对 于 中 音频 率 ， 输 出 电压 是 1V， 那 么 对 18kHz 频率 ， 在 损失 3dB 以 后 输出 电压 是 多 | ， 
少 ? 160 

(b) 为 了 补偿 这 些 损失 ， 听 众 可 以 调整 均衡 器 在 不 同 频 率 上 的 增益 〈 从 而 调整 了 输出 )。 如 果 
损耗 是 -3dB ， 均 衡器 在 18kHz 的 增益 是 6dB， 那 么 输出 电压 是 多 少 ? (提示 : 假设 
log 19(2)=0.3. ) 


.假设 采样 频率 是 真实 频率 的 1.5 倍 。 那 么 假 频 是 多 少 ? . 
.在 一 个 拥挤 的 房间 中 ， 尽 管 噪声 很 大 ， 我 们 依然 可 以 分 辨 并 且 听 懂 周 围 人 的 声音 ， 这 称 为 鸡 


尾 酒 派对 效应 〈cocktail-party effect)。 有 具体 的 原理 是 我 们 的 听觉 器 官能 够 根据 左右 耳 条 的 声音 
相位 差 判断 出 声 源 的 位 置 (binaural auditory perception)。 在 单 声 道中 ， 如 果 噪 声 很 大 ， 我 们 无 
法 听 出 周围 人 的 声音 。 说 说 你 认为 卡拉 OK 系统 是 如 何 工 作 的 ? 提示 : 在 商用 音乐 录音 的 混 音 
系统 中 ， 每 种 乐器 的 左右 声 道 的 pan 参数 不 同 。 因 此 对 一 种 乐器 ， 它 的 左右 通道 都 被 标定 了 ， 
请 问 演唱 者 的 声 道 的 时 间 ， 如 何 记录 才能 更 加 容易 地 去 除 演唱 者 的 声音 (通常 的 做 法 )。 


.一 个 信号 V 的 动态 范围 (dynamic range) 是 它 的 最 大 绝对 值 和 最 小 绝对 值 的 比率 。 从 某 种 意 


义 上 讲 ,一 个 信号 的 动态 范围 反应 一 个 信和 号 的 质量 。 它 也 能 够 反映 出 我 们 需要 多 少 位 才能 把 量 
化 噪声 限制 在 一 个 可 以 接受 的 范围 内 。 例 如 ， 我 们 可 能 希望 量化 噪声 的 振幅 比 Vw 要 小 。 假 设 
信号 的 动态 范围 是 60dB， 我 们 使 用 10 位 能 够 满足 要 求 吗 ? 16 位 呢 ? 


. 动态 范围 的 定义 是 Vnor /Vn ， 电 话 系 统 的 动态 范围 是 256。 若 使 用 均匀 量化 ， 那 么 应 该 使 用 多 


少 位 来 编码 ， 才 能 使 得 量化 噪声 的 振幅 小 于 电话 中 能 够 听 到 的 最 轻 的 声音 ? 


.感知 不 一 致 性 (perceptual nonuniformity) 是 一 个 常用 术语 ， 它 说 明了 人 对 声音 的 感受 能 力 不 


是 线性 分 布 的 。 也 就 是 说 , 当 音 频 信 号 的 某 个 参数 变化 时 , 人 不 是 按照 比例 感受 到 对 应 的 变化 。 
Ca) 简要 介绍 至 少 两 种 人 在 音频 感受 上 的 感应 能 力 非 均匀 分 布 。 
Cb) 哪 一 种 可 以 使 用 4 律 CBR UE) 来 逼近 ? 它 为 什么 能 够 提高 量化 的 效果 ? 


.绘制 一 幅 示 意图 ， 显 示 一 个 频率 为 5.5kHz 的 正弦 函数 使 用 8kHz 频率 来 采样 〈 在 图 表 中 要 绘 


lO 个 采样 点 )。 绘 制 一 条 2.5kHz 的 假 频 ， 在 图 中 应 该 可 以 看 出 在 8 个 采样 间隔 中 ,真实 信号 
的 5.5 个 周期 刚好 和 干扰 频率 的 2.5 个 周期 一 致 。 


. 假设 一 个 信号 含有 1、10 以 及 21kHz 的 成 分 ， 使 用 12kHz 的 速率 来 采样 “然后 使 用 最 高 频率 


为 6kHz 的 抗 干扰 滤波 器 来 处 理 )， 输 出 信号 中 会 含有 哪些 频率 成 分 ? GER: 大 部 分 输出 都 
会 含有 干扰 现象 ) 。 


. Q) 一 个 MIDI 消息 能 否 同时 产生 多 个 声 部 ? 


Cb》 利用 MIDI， 能 够 在 一 个 乐器 上 一 次 模拟 出 多 个 声 部 吗 ? 如果 可 以 ， 是 怎样 实现 的 ? 

(c) Program Change MIDI 消息 是 通道 消息 吗 ? 这 个 消息 是 如 何 实现 的 ? 根据 Program Change 
消息 ， 通 用 MIDI 中 一 共有 多 少 个 乐器 ? 为 什么 ? 

(d) 一 般 来 讲 ，MIDI 消息 主要 分 为 哪 两 种 类 型 ? 从 具体 数据 上 来 讲 ， 两 类 消息 最 主要 的 区 
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别 是 什么 ? 继续 给 这 两 大 类 消息 分 类 ， 还 可 以 分 为 什么 类 型 ? 
12. (a) 使 用 文字 而 不 是 16 进 制 值 给 出 一 个 MIDI 声音 消息 的 例子 。 
Cb) 描述 这 则 消息 的 Assembler 声明 部 分 。 
Cc) Preogram Change 消息 的 主要 功能 是 什么 ? (RW Program Change 写成 16 进 制 是 “&HC1”， 
那么 指令 “&HC103” 的 主要 功能 是 什么 ? 
13. 在 PCM 中 ， 若 使 用 8kHz 采样 ， 那 么 延 时 是 多 少 ? 一 般 来 讲 ， 在 信号 采样 、 处 理 、 分 析 的 算 
法 中 ， 延 时 是 指 算法 所 需要 消耗 的 时 间 。 
14. (a) 假设 我 们 使 用 下 面 的 预测 器 : 


fr = mne Gra +o] 
en= fa- fn 
并 且 我 们 使 用 量化 方程 (6.20)， 如 果 输 入 信号 值 如 下 : 
20, 38, 56, 74, 92, 110, 128, 146, 164, 182, 200, 218, 236, 254 
DPCM 编码 器 输出 如 下 不 含 炳 编码 ); 
20, 44, 56, 74, 89, 105, 121, 153, 161, 181, 195, 212, 243, 251 
图 6-198 显示 了 量化 重 构 信 号 和 原 信和 号 的 轨迹 。 作 为 一 个 编程 项 目 ， 编 写 一 段 代码 来 验 
证 你 的 结果 。 
(b) 假设 在 无 损 编码 中 ， 由 于 我 们 使 用 预测 器 (GÈ (6.14)) 时 发 生 了 错误 ， 使 用 原始 信号 值 
所 而 不 是 量化 信号 值 向 ， 所 以 在 解码 端 ， 我 们 获得 如 下 的 重 构 信 号 : 
20, 44, 56, 74, 89, 105, 121, 137, 153, 169, 185, 201, 217, 233 
可 以 看 出 误差 在 逐渐 加 剧 。 


(6.25) 





图 6-19b 显示 重 构 信 和 号 的 效果 越 来 越 差 ， 修 改 上面 的 代码 来 验证 上 述 结论 。 

250 

200 

ap 150 
da 

100 

50 

时 间 时 间 
a) DPCM 重 构 信 号 (点 线 ) 和 b) DPCM 重 构 信号 ( 短 横 线 ) 
原始 信号 〈 实 线 ) 的 比较 逐渐 偏离 原始 信号 〈 实 线 ) 
图 6-19 #14 题 的 示意 图 
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二 部 分 “多 媒体 数据 压缩 


第 7 章 无 损 压 缩 算法 

第 8 章 ”有 损 压缩 算法 

第 9 章 图像 压 缩 标准 

第 10 章 基本 视频 压缩 技术 

第 11 章 MPEG 视频 编码 1] : MPEG-1 和 MPEG-2 

第 12 章 MPEG 视频 编码 卫 : MPEG-4、MPEG-7 及 更 高 版 本 
第 13 章 音频 压缩 技术 基础 

第 14 章 MPEG 音频 压缩 


在 这 一 部 分 中 ， 我 们 将 讨论 数据 压缩 。 数 据 压缩 应 该 是 实现 当代 多 媒体 系统 的 一 项 最 为 重 
要 的 技术 。 

第 7 章 将 介绍 无 损 数 据 压 缩 ， 无 损 是 指数 据 压 缩 和 重组 后 与 原 信号 相 比 没有 损失 。 在 保存 
档案 等 情况 下 ， 需 要 处 理 的 数据 量 很 大 ， 所 以 对 信息 进行 压缩 非常 必要 。 无 损 压缩 是 一 种 处 理 
方式 。 

例如 ， 假 设 我 们 想 做 一 下 MRI ( 核磁 共振 ) 来 检查 身体 的 健康 状况 。 我 们 当然 希望 无 损 地 
保存 这 一 价格 不 菲 的 医疗 信息 。 尽 管 这 种 图 片 的 数据 量 巨 大 ， 我 们 也 不 愿 丢 失 任 何 信息 。 我 们 
可 以 应 用 WinZip 这 一 常用 的 无 损 压 缩 工具 。 
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另 一 个 例子 是 对 以 往 的 画作 进行 存档 。 大 师 的 作品 不 但 要 精心 拍摄 ， 而 且 保存 时 最 好 不 要 
去 掉 这 么 难得 的 信息 ， 因 此 也 需要 无 损 压 缩 。 
而 另 一 方面 ， 如 果 是 家 庭 中 所 看 的 电影 的 数据 ， 则 可 丢失 一 些 信息 。 如 果 PC 不 能 处 理 那么 
多 数据 ， 我 们 要 在 随意 丢失 一 些 数 据 和 利用 有 损 压 缩 方法 有 目的 地 丢失 一 些 信息 中 选择 的 话 ， 
一 定 会 选择 后 者 。 现 在 ， 几 乎 所 有 我 们 见 到 的 视频 都 是 以 有 损 方式 压缩 的 。 而 网 上 大 量 的 标准 
JPEG 格式 的 图 像 也 都 是 有 损 压缩 的 。 
因此 ， 从 第 8 章 开始 ， 我 们 讨论 有 损 压缩 方式 ， 主 要 关注 离散 余弦 变换 和 离散 小 波 变换 。 这 
些 方法 的 主要 应 用 是 JPEG 静态 图 像 压缩 标准 ， 以 及 JPEG 2000， 这 部 分 内 容 在 第 9 章 介 绍 。 
接着 我 们 继续 讨论 能 够 用 于 动态 图 像 ( 视频 ) 的 数据 压缩 方法 。 我 们 在 第 10 章 先 讨论 基 
165] 本 的 视频 压缩 技术 。 第 11 章 以 MPEG-1 和 MPEG-2 为 主 讨论 MPEG 标准 , 第 12 章 讨论 MPEG-4、 
l | MPEG-7 等 。 音 频 压缩 有 其 自身 的 特点 ， 我 们 在 第 13 章 讨论 基本 的 音频 压缩 技术 ， 在 第 14 章 
166] 讨论 MPEG EM, 包括 MP3。 > 





第 7 章 ”无损 压 缩 算法 


7.1 简介 

多 媒体 技术 的 出 现 使 数字 图 书馆 (digital library) 成 为 现实 。 今 天 ， 图 书馆 、 博 物 馆 、 电 影 
工作 室 乃 至 政府 部 门 都 在 尝试 着 将 越 来 越 多 的 数据 和 档案 文件 转换 成 数字 的 形式 。 其 中 ， 有 些 数 
据 《〈 比 如 珍贵 的 书籍 和 画作 ) 在 保存 时 不 能 有 任何 损失 。 

假设 我 们 要 对 国会 图 书馆 的 1 亿 2000 万 个 左右 的 馆藏 的 编 且 号 码 进行 编码 (如 果 只 考虑 书 
籍 的 话 ， 只 有 2000 万 个 )。 为 什么 我 们 没有 简单 地 把 每 一 个 编目 号 码 用 一 个 27 位 的 数字 来 表示 ， 
从 而 给 每 个 号 码 赋予 一 个 唯一 的 二 进 制 编码 呢 〈22” >120 000 000) ? 

这 样 做 的 主要 问题 是 需要 的 位 过 多 。 事 实 上 ， 现 在 有 许多 编码 技术 能 够 有 效 地 减少 表达 上 述 
信息 所 需 的 总 位 数 。 而 这 里 所 涉及 的 过 程 通常 称 作 压缩 (compression) [1，2]。 

在 第 6 章 ， 我 们 对 音频 的 压缩 方案 已 经 有 了 初步 的 认识 。 在 第 6 章 ， 我 们 必须 首先 考虑 将 模 
拟 信和 号 转换 为 数字 信和 号 的 复杂 性 ， 而 在 这 里 ， 我 们 的 讨论 将 直接 从 数字 信号 开始 。 举 个 例子 ， 尽 
管 我 们 知道 图 像 采集 时 使 用 的 是 模拟 信号 ， 但 是 由 数字 摄像 机 产生 的 文件 的 确 是 数字 化 的 。 长 期 
以 来 ,， 人们 一 直 在 研究 一 个 更 普遍 的 问题 , 即 如 何 对 一 组 任意 的 符号 , 而 不 仅仅 是 字 节 值 进行 编码 。 

回 到 前 面 的 国会 图 书馆 的 问题 ， 我 们 知道 编目 号 码 的 某 些 部 分 比 其 他 部 分 出 现 的 频率 更 高 ， 
因此 在 编码 时 给 这 些 出 现 频率 高 的 部 分 赋予 较 少 的 位 数 会 更 加 经 济 。 这 也 就 是 所 谓 的 变 长 编码 
(VLC)， 即 在 编码 时 给 出 现 频 率 较 高 的 符号 赋予 较 少 的 位 数 ， 反 之 亦 然 。 这 样 ， 我 们 就 可 以 使 用 
更 少 的 位 数 来 表示 全 部 的 馆藏 。 

在 本 章 ， 我 们 将 学 习 一 些 有 关 信 息 论 的 基础 知识 和 几 种 应 用 广泛 的 无 损 压 缩 技术 。 图 7-1 描 
述 了 一 个 通用 的 数据 压缩 方案 ， 其 中 压缩 由 编码 器 实现 ， 而 解压 缩 由 解码 器 实现 。 


输入 数据 
存储 器 或 网 络 解码 器 (解压 缩 ) ”| 输出 数据 


图 7-1 一 个 通用 的 数据 压缩 方案 


我 们 把 编码 器 的 输出 称 作 编码 (code) 或 码 字 (codeword)。 中 间 的 媒介 可 以 是 数据 存储 器 或 
是 通信 /计算 机 网 络 。 如 果 压 缩 和 解压 缩 过 程 中 没有 任何 信息 丢失 ， 则 这 种 压缩 方案 就 是 无 损 的 
(lossless )， 否 则 就 是 有 损 的 (lossy )。 接 下 来 的 几 章 都 是 讲述 有 损 压 缩 算法 的 ， 因 为 它们 通常 应 
用 于 图 像 、 视 频 和 音频 压缩 。 在 本 章 ， 我 们 将 重点 介绍 无 损 压 缩 。 

如 果 压 缩 前 某 个 数据 的 总 位 数 为 Be ， 而 压缩 后 该 数据 的 总 位 数 为 Bl ， 我 们 可 以 定义 压缩 率 


(compression ratio) X: 
kj% -2e (7.1) 
Bı 


一 般 来 说 ， 我 们 期 望 任何 一 个 多 媒体 数字 信和 号 编 解 码 器 〈 编 码 /解码 方案 ) 都 具有 远大 于 1.0 
的 压缩 率 。 只 要 这 种 方案 在 计算 上 是 可 行 的 ， 那 么 压缩 率 越 高 ， 无 损 压 缩 方案 越 好 。 
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7.2 ”信息 论 基础 


根据 贝尔 实验 室 的 著名 科学 家 Claude E. Shannon 的 研究 [3,4]， 一 个 具有 符号 集 
S ={s1,52,…,Sn} 的 信息 源 (source) AIH (entropy) 定义 为 


n=H(S)=> pi logs — (12) 
P 


i=l i 
= -人 pi log. pi (7.3) 
i=] 
其 中 pi 是 s 中 符号 si 出 现 的 概率 。 
log, 表明 了 包含 在 5: 中 的 信息 量 《 即 由 香农 [3] 定义 的 所 谓 的 自信 息 重 )， 它 与 对 5; 进 行 编 


码 所 需 的 位 数 相等 。 举 例 来 说 ， 如 果 在 一 份 稿件 中 出 现 字 符 n 的 概率 为 1132， 则 这 个 字符 包含 
的 信息 量 是 5 位 。 换 句 话说 ， 需 要 使 用 15 位 对 字符 串 nnn 编码 。 这 就 是 文本 压缩 中 可 能 的 减少 数 
据 量 的 基础 ， 因 为 它 将 使 字符 编码 方案 与 ASCH 码 表示 有 所 不 同 ，ASCII 码 中 每 个 字符 使 用 8 位 
来 表示 。 

HARE? PAIN, HEM —-TSRAN AAR (disorder) HEE. WRK, ABB. 
Ki, ARNABRASAPN, RNSAASM A. Tein, BERMEN — BFH 
行 排序 (考虑 对 这 些 卡 片 进行 冒 泡 排 序 ， 尽 管 这 不 一 定 是 你 通常 对 卡片 进行 排序 的 方式 )。 对 于 
每 一 次 交换 或 不 交换 的 决策 ， 我 们 都 将 为 卡片 系统 增加 1 位 的 信息 量 并 且 为 这 又 卡片 传送 1 位 的 
Siu 

ME NAS TINE: 两 次 决策 意味 着 在 以 2 AMM BHP GU. Th 2 位 的 向 
量 可 以 有 2? 种 状态 ， 而 对 数 将 把 这 个 值 转换 成 2 NT. RRS SP CE. 

现在 , 假设 我 们 希望 通过 网 络 来 传送 这 些 交 换 决 策 。 那么 我 们 必须 发 送 2 位 来 表示 两 次 决策 。 
如 果 我 们 有 一 个 两 次 决策 系统 ， BA, 所 有 这 样 的 传送 所 需 的 平均 位 数 也 是 2 位 。 如 果 我 们 愿意 ， 
我 们 可 以 把 2 位 系统 中 可 能 的 状态 数 看 做 4 个 输出 结果 。 每 个 结果 具有 1/4 的 概率 。 所 以 平均 来 
说 ， 传 送 每 个 结果 所 需 发 送 的 位 数 为 4x(U4)xlog((MUV4) 力 =2 位 ， 这 个 结果 不 足 为 奇 。 要 传送 两 
次 决策 的 结果 ， 我 们 需要 传送 2 位 。 

但 是 如 果 某 个 结果 的 概率 高 于 其 他 的 结果 ， 则 我 们 发 送 的 平均 位 数 将 会 有 所 不 同 。( 在 卡片 
已 经 部 分 有 序 时 可 能 发 生 这 种 情况 ， 这 时 不 交换 的 概率 要 高 于 交换 的 概率 。) 假设 我 们 的 四 个 状 
态 中 某 个 状态 的 概率 为 12， 而 其 他 三 个 状态 发 生 的 概率 分 别 为 116。 为 了 对 平均 发 送 位 数 模型 进行 
扩展 ， 我 们 不 得 不 借助 于 2 的 非 整数 次 客 来 表示 概率 。 然 后 我 们 可 以 使 用 对 数 来 寻求 到 底 需 要 多 少 
位 来 传送 信息 内 容 。 根 据 式 (7.3)， 我 们 需要 传送 (1/2)xlog2(2)+3x(1/16)xlog2(6) =1.7925 位 ， 比 
2 位 要 少 。 这 反映 出 如 果 能 够 对 我 们 的 四 个 状态 进行 编码 ， 并 且 使 出 现 概率 最 高 的 一 个 状态 用 较 
少 的 位 数 来 传送 ， 那 么 我 们 可 以 用 更 少 的 位 来 传送 平均 值 。 

烂 定义 由 在 从 数据 流 中 识别 出 经 常 出 现 的 符号 作为 压缩 位 流 中 的 候选 短 〈short) 码 字 。 正 如 
前 面 所 描述 的 ， 我 们 使 用 变 长 编码 方案 进行 粹 编码 ， 即 给 频繁 出 现 的 符号 分 配 能 够 快速 传输 的 码 
字 ， 而 给 不 经 常 出 现 的 符号 分 配 较 长 的 码 字 。 比 如 ， 在 英语 中 五 频繁 出 现 ， 所 以 我 们 应 该 给 上 赋 
予 比 其 他 字母 (如 8) 更 短 的 码 字 。 


O ”因为 我 们 在 上 面 的 定义 中 选择 2 作为 对 数 的 底 ， 所 以 信息 的 单位 是 位 ， 这 对 于 数字 计算 机 中 的 二 进 制 编码 表示 自然 是 
最 合理 的 。 如 果 对 数 的 底 是 10， 则 单位 是 哈 特 利 hartley)， 如 果 底 为 e， 则 单位 是 奈 特 (nat)。 
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在 接收 数据 流 中 出 现 频率 低 的 符号 时 ， 这 种 令 人 惊奇 的 一 面 在 〈7.3) 的 定义 中 有 所 反映 。 如 
果 一 个 符号 很 少 出 现 ， 则 它 出 现 的 概率 p; 就 较 低 (例如 ，1/100)， 它 的 对 数 是 一 个 较 大 的 负数 。 
这 反映 出 它 在 编码 时 应 用 较 长 的 位 串 。 式 〈7.3) 中 对 数 外 面 的 概率 p 表明 在 一 个 较 长 的 流 中 ， 符 
号 出 现 的 平均 频率 与 它们 出 现 的 概率 相等 。 这 种 权重 应 该 将 见 到 的 某 一 特定 符号 时 由 “惊奇 ”成 
分 给 出 的 或 长 或 短 的 信息 内 容 相 乘 起 来 。 

下 面 看 另外 一 个 例子 。 如 果 信 息 源 S 是 一 个 灰 度 数字 图 像 ， 则 si EREA 0~ (2 -1) 的 一 个 
灰 度 亮度 值 ， 其 中 大 是 用 于 表示 未 压缩 图 像 中 每 个 像素 的 位 数 。 因 为 一 般 使 用 8 位 来 表示 一 个 像 
素 ， 这 样 每 个 像素 怡 好 可 以 用 1 字 节 表示 ， 所 以 这 个 范围 通常 是 [0，255]。 图 像 直方 图 (在 第 3 
章 中 讨论 过 ) 是 一 种 用 来 计算 一 幅 图 像 中 灰 度 亮度 为 i 的 像素 的 概率 pi 的 有 效 方法 。 

AR (73) 还 可 以 看 出 ， 如 果 一 个 符号 出 现 的 频率 为 0， 则 我 们 就 不 需 将 其 计 入 焙 中 ， 因 为 
0 没有 对 数 。 

图 7-2a 给 出 了 灰 度 亮度 呈 均 匀 分 布 的 一 幅 图 像 的 直方 图 。 也 就 是 说 ， 对 于 任意 的 疡 ， 
pi =1/256 。 因 此 ， 这 幅 图 像 的 炳 为 


255 
1 
=$ 一] 256=8 (7.4) 
了 £5 256 082 


ER (13) 中 可 以 看 到 ， 精 0 是 项 log: -的 加 权 和 ， 因此 ， 它 代表 了 源 中 每 个 符号 所 包含 


的 平均 信息 量 。 对 于 一 个 无 记忆 的 源 “5S， 粹 n 代 表 了 表示 5 中 每 个 符号 所 需 的 最 小 平均 位 数 。 换 
名 话说 ， 它 指明 了 对 S 中 每 个 符号 进行 编码 所 需 的 平均 位 数 的 下 界 。 


1/256 2/3 


a) b) 
图 7-2 ”两 个 灰 度 图 像 的 直方 图 
如 果 我 们 使 用 / 来 表示 编码 器 生成 的 码 字 的 平均 长 度 (单位 为 位 ) BARR eA T 
我 们 所 能 够 取得 的 最 优 值 〈 在 某 种 条 件 下 ): 
n<t (7.5) 
编码 方案 旨 在 尽 可 能 地 接近 这 个 理论 的 下 界 。 
我 们 可 以 在 上 面 均匀 分 布 的 例子 中 观察 到 一 个 有 趣 的 结果 : n =8 ， 即 表示 每 个 灰 度 亮度 所 需 
的 最 小 平均 位 数 至 少 是 8。 也 就 是 说 ， 这 幅 图 像 不 可 能 再 被 压缩 。 在 生成 图 像 的 上 下 文中 ， 这 对 
应 着 “最 坏 的 情况 ” 此 时 相 邻 两 个 像素 没有 任何 相似 性 。 
图 7-2b 给 出 了 另 一 幅 图 像 的 直方 图 ， 其 中 1/3 的 像素 是 比较 暗 的 ， 而 2/3 的 像素 比较 亮 。 这 
ERRIA: 


加 ”信息 源 具 有 独立 的 分 布 ， 意 味 着 当前 符号 的 值 并 不 依赖 于 前 面 出 现 的 符号 的 值 。 
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n= 3 -log2 3+3"log,3 = 0.33x1.59 + 0.67 x0.59 = 0.52 +0.40 = 0.92 


RMS, UREA RRA, WMRDAARM, MB. 


7.3 游 长 编码 

对 于 有 记忆 的 信息 源 ， 游 长 编码 (Run-Length Coding, RLC) 利用 了 信息 源 中 的 记忆 。 这 是 
数据 压缩 中 最 简单 的 一 种 形式 。 其 基本 思想 是 ， 如 果 我 们 要 压缩 的 信息 源 中 的 符号 具有 这 样 的 性 
质 ， 即 同一 个 符号 常常 形成 连续 的 片段 出 更， 那么 我 们 可 以 对 这 个 符号 以 及 这 个 片段 的 长 度 进行 
编码 ， 而 不 是 对 片段 中 的 每 个 符号 单独 编码 。 

举例 来 说 ， 考 虑 一 个 具有 单调 区 间 的 二 值 图 像 〈 黑 白 图 像 )。 利 用 游 长 编码 算法 可 以 对 这 个 
信息 源 进行 高 效 地 编码 。 事 实 上 ， 因 为 只 有 两 个 符号 ， 所 以 我 们 并 不 需要 在 每 一 个 行程 的 开始 对 
任何 符号 编码 ， 相 反 ， 我 们 假设 每 个 行程 总 是 开始 于 一 个 特殊 的 颜色 〈 黑 或 白 )， 然 后 只 需 对 每 
个 行程 的 长 度 编码 即 可 。 

上 面 描述 的 是 一 维 的 游 长 编码 算法 。 这 种 算法 的 二 维 变 体 常常 用 于 二 值 图 像 编码 。 这 种 算法 
利用 图 像 中 前 面 一 行 的 已 编码 的 行程 信息 对 当前 行 的 行程 进行 编码 。 算 法 的 完整 描述 可 参看 [5]。 


7.4” 变 长 编码 


由 于 米 可 以 表示 一 个 信息 源 $ 的 内 容 , 所 以 出 现 了 一 系列 通常 被 称 作 炳 编码 (entropy coding) 
的 编码 方法 。 前 面 介绍 过 ， 变 长 编码 (Variable-Length Coding, VLC) REA WHEN 
码 。 在 本 节 ， 我 们 将 学 习 香 农 - 凡 诺 算 法 、 攻 夫 曼 编码 和 自 适 应 赫 夫 曼 编码 。 
7.4.1 香农 - 凡 诺 算法 

香农 - 凡 诺 算法 是 由 贝尔 实验 室 的 Shannon 和 MIT 的 Robert Fano 独立 开发 的 [6]。 为 了 说 


明 这 个 算法 , 我 们 假设 对 单词 HELLO 中 出 现 的 几 个 字符 进行 编码 。 每 个 字符 出 现 的 频率 计数 
WF: 





符号 |H E LO 

香农 - 凡 诺 算法 的 编码 步骤 可 以 按照 下 面 的 自 顶 向 下 的 方式 描述 ， 

1) 根据 每 个 符号 出 现 的 频率 对 符号 进行 排序 。 

2) 递归 地 将 这 些 符 号 分 成 两 部 分 ， 每 一 部 分 中 的 符号 具有 相近 的 频率 ， 直 到 所 有 的 部 分 都 
只 含有 一 个 符号 为 止 。 

实现 上 述 过 程 的 一 种 很 自然 的 方法 就 是 建立 一 棵 二 又 树 (binary tree)。 按 照 惯例 ， 我 们 给 二 
又 树 中 的 左 支 赋予 0， 给 所 有 的 右 支 赋予 1。 

开始 时 ， 这 些 符号 被 排列 成 LHEO。 如 图 7-3 所 示 ， 第 一 次 划分 产生 两 部 分 ，1) 出 现 次 数 为 
2H L, BALO). 2) 出 现 总 次 数 为 3 的 H，B 和 0， 记 为 HE,O:(3)。 第 二 次 划分 产生 H:(1) 和 
E,O:(2)。 最 后 一 次 划分 产生 E:(1) 和 O:(1)。 

表 7-1 总 结 了 上 述 结果 ， 给 出 了 单词 HELLO 中 的 符号 、 每 个 符号 出 现 次 数 、 信 息 内 容 


[二 结果 码 字 和 用 来 对 每 个 符号 进行 编码 所 需 的 位 数 。 表 的 最 后 一 行 给 出 了 对 单词 HELLO 
编码 所 需 的 总 位 数 。 
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L:(2) H,E,0:(3) L:(2) 0 1 


a) b) 





E:(1) O:(1) 
c) 


图 7-3 ”使 用 香农 - 凡 诺 算法 对 HELLO 进行 编码 的 编码 树 
在 这 个 例子 中 ， 我 们 再 来 回顾 一 下 前 面 讨论 的 丧 概念 : 
1 1 1 1 
n = p - log, — + pu -log2 — + pe -log2 — + po log: — 
PL Pu PE Po 
= 0.4x1.32+0.22.32+0.2x2.32+0.2x2.32 = 1.92 


R7-1 在 HELLO 上 应 用 香农 - 凡 诺 算法 的 一 个 结果 





这 表明 对 单词 HELLO 中 每 个 字符 进行 编码 所 需 的 最 小 平均 位 数 应 当 至 少 是 1.92。 在 这 个 例 
子 中 ， 香 农 - 凡 诺 算法 对 每 个 符号 进行 编码 的 平均 值 为 10/5 = 2 位 ， 这 与 下 界 1.92 已 相当 接近 。 
显然 ， 这 个 结果 令 人 满意 。 

应 当 指出 ， 香 农 - 凡 诺 算法 的 结果 并 不 唯一 。 例 如 ， 对 上 例 进 行 第 一 次 划分 时 ， 所 有 的 符号 
也 可 以 被 划分 为 L,H:(3) 和 E,O:(2) 两 部 分 。 这 时 编码 结果 就 变 成 图 7-4 所 示 的 样子 。 表 7-2 中 的 码 
字 也 有 所 变化 。 另 外 ， 这 两 组 码 字 在 有 错误 出 现时 可 能 会 呈现 出 不 同 的 行为 。 但 是 巧合 的 是 ， 对 
单词 HELLO 编码 所 需 的 总 位 数 仍然 保持 为 10。 


(5) (5) 


L:(2) H:(1) E:(1) 0:1) 
a) b) 


图 7-4 使 用 香农 - 凡 诺 算 法 对 HELLO 进行 编码 的 另 一 种 编码 树 


香农 - 凡 诺 算法 在 数据 压缩 时 会 有 令 人 满意 的 编码 结果 ， 但 是 它 很 快 就 被 赫 夫 曼 编 码 方法 超 
越 并 取代 了 。 
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7-2 在 HELLO 上 应 用 香农 - 凡 诺 算法 的 另 一 个 结果 





7.4.2 tA BS 


赫 夫 曼 编 码 方法 最 早出 现在 David A.Huffman 于 1952 年 发 表 的 论文 [7] 中 , 这 种 方法 引发 了 许 
多 深入 的 研究 并 且 已 被 许多 重要 的 和 商业 性 的 应 用 所 采纳 ， 比 如 传真 机 、JPEG 和 MPEG. 

与 自 顶 向 下 的 香农 - 凡 诺 算 法 相 比 ， 赫 夫 曼 编码 的 算法 采用 了 自 底 向 上 的 描述 方式 。 仍 然 以 
单词 HELLO 为 例 。 首 先 ， 同 样 要 创建 一 棵 与 前 面相 似 的 二 又 编 码 树 ， 所 有 左 支 被 编码 为 0， 右 
支 被 编码 为 1。 赫 夫 曼 编码 使 用 了 一 种 简单 的 列表 数据 结构 。 


算法 7-1 赫 夫 曼 编码 

1) 初始 化 ， 根 据 符号 出 现 的 次 数 对 列表 中 所 有 的 符号 进行 排序 。 
2) 重复 下 面 步 骤 直 到 列表 中 只 剩 下 一 个 符号 。 

DO 从 列表 中 选 出 两 个 具有 出 现 次 数 最 少 的 符号 。 以 这 两 个 符号 作为 孩子 节点 创建 一 棵 赫 夫 曼 子 树 ， 并 为 这 两 个 节点 创 

建 一 个 父亲 节点 。 

D 以 孩子 节点 的 出 现 次 数 的 总 和 作为 父亲 节点 的 出 现 次 数 ， 将 父亲 节点 插入 字符 列表 中 ， 并 保持 列表 的 有 序 性 。 

© 从 列表 中 将 孩子 节点 删除 。 
D 根据 从 根 到 叶子 节点 的 路 径 为 每 一 个 叶子 节点 赋予 一 个 码 字 。 


在 图 7-5 中 ， 创 建 了 新 符号 P1、P2 和 P3 来 表示 赫 夫 曼 编 码 树 中 的 父亲 节点 。 列 表 中 的 内 容 
变化 如 下 : 

初始 化 后 : LHEO 

R—-M (a): LP1H 

迭代 两 次 (b): LP2 

BREK (c): P3 

虽然 赫 夫 曼 编码 的 结果 通常 会 更 好 ， 但 是 对 于 这 个 简单 的 例子 ， 很 明显 ， 赫 夫 曼 编码 的 结果 
与 图 7-3 中 香农 - 凡 诺 算法 的 编码 结果 相同 。 对 每 个 字符 进行 编码 所 需 的 平均 位 数 仍然 是 2〈 即 
(1+1+2+3+3) /5 =2)。 我 们 再 来 看 一 个 简单 的 例子 ， 考 虑 一 个 包含 一 组 字符 的 文本 字符 串 ， 各 字 
符 出 更 的 次 数 依 次 是 A:(13)，B:(7)，C:(6)，D:(6) 和 E:(S)。 很 容易 知道 ， 对 这 个 字符 串 编码 时 ， 
香农 - 凡 诺 算法 总 共 需 要 89 位 ， 而 赫 夫 曼 算 法 只 需要 87 位 。 

如 上 所 示 ， 如 果 可 以 得 到 准确 的 概率 “ 先 验 统计 ”)， 则 赫 夫 曼 编码 方法 会 产生 很 好 的 压缩 
结果 。 只 要 在 数据 压缩 前 将 统计 数字 和 /编码 树 〈 在 文件 头 中 ) 发 送 给 解码 器 ， 则 区 夫 曼 编码 的 解 
码 将 非常 简单 。 如 果 数 据 文件 足够 大 的 话 ， 开 销 是 可 以 忽略 不 计 的 。 

赫 夫 曼 编 码 具 有 以 下 几 个 重要 性 质 : 

0 ME ATE “任何 一 个 赫 夫 党 编码 都 不 能 作为 另 一 个 赫 夫 曼 编码 的 前 绥 。 比 如 ， 图 7-5c 

中 分 配给 L 的 编码 0 不 是 H 的 编码 10、E 的 编码 110 或 是 O 的 编码 111 ATR: H 的 编码 
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10 也 不 是 E 的 编码 110 或 O 的 编码 111 的 前 级 。 事 实 上 ， 上 面 的 赫 夫 曼 算法 本 身 保证 了 唯一 
HAH, 因为 它 总 是 把 所 有 的 输入 符号 置 于 赫 夫 曼 树 的 叶子 节点 上 。 赫 夫 曼 编 码 是 一 种 前 
缀 编码 ， 前 缀 编码 具有 唯一 的 前 级 。 香 农 - 凡 诺 算法 产生 的 编码 也 是 这 样 的 一 个 例子 。 


P1:(2) P2:(3) 
0 1 0 


P1:(2) 
E:(1) 0:(1) H:(1) 1 


E:(1) 0:4) 
<a) b) 





E(D O:(1) 


7-5 ERAS SIEM HELLO 进行 编码 的 编码 树 


这 种 性 质 是 必需 的 ， 也 有 助 于 生成 一 个 高 效 的 解码 器 ， 因 为 它 排除 了 解码 时 的 多 义 性 。 在 
上 面 的 例子 中 ， 如 果 收 到 了 0， 则 解码 器 可 以 立即 产生 符号 工 而 无 需 等 待 后 续 的 位 。 
ete Huffman 在 1952 年 的 论文 [7 中 写 道 ， 赫 夫 曼 编码 是 一 种 最 小 元 余 编 码 

(minimum-redundancy code)。 在 [8，2] 中 已 经 证 明 ， 赫 夫 曼 编码 对 于 任何 数据 模型 ( 即 一 

个 给 定 的 、 准 确 的 概率 分 布 的 数据 模型 ) 都 是 又 优 的 : 

， 两 个 频率 最 低 的 字符 具有 相同 长 度 的 赫 夫 曼 编 码 ， 但 是 编码 的 最 后 一 位 不 同 。 从 上 面 的 
算法 中 很 容易 看 到 这 一 点 。 

， 出 现 频率 较 高 的 符号 的 码 字 比 出 现 频 率 较 低 的 符号 的 码 字 短 。 也 就 是 说 ， 对 于 符号 s; 和 
sjo WR pipjo WLI, HP, LÆ s; 的 码 字 长 度 。 

。 信息 源 5 的 平均 编码 长 度 严格 小 于 ?了 +1L (参见 [2])。 与 式 〈7.5〉 联 立 ， 我 们 有 1: 


ngl<ntl (7.6) 

扩展 的 赫 夫 要 编码 
到 目前 为 止 ， 我 们 讨论 的 霖 夫 曼 编码 都 是 给 每 一 个 符号 赋予 一 个 具有 浆 数 位 长 的 码 字 。 在 前 
面 我 们 提 到 ，log> 代表 了 包含 在 信息 源 s; 中 的 信息 量 ， 它 与 对 s; 进行 编码 所 需 的 位 数 相 等 。 


因而 当 一 个 符号 :概率 较 大 (接近 10) H jog HREF 0， 这 时 用 1 位 来 代表 这 个 符号 是 
2D; ? 
175 


相当 昂贵 的 。 只 有 当 所 有 符号 的 概率 都 可 以 表示 成 2* 时 (k 是 正 整数 )， 码 字 的 平均 长 度 才 可 能 
真正 地 达到 最 优 ， 也 就 是 说 ，7 =n 。 很 显然 ， 大 多 数 情 况 下 1 >No 
解决 整数 码 字 长 度 问 题 的 一 个 方法 就 是 将 几 个 符号 成 组 ， 然 后 为 整个 组 赋予 一 个 码 字 。 这 种 
类 型 的 二 夫 曼 编码 称 作 扩展 的 赫 夫 曼 编 码 (extended Huffman coding) [2]。 假 设 信息 源 有 符号 集 
$={51,52,…,Sn】， 如 果 个 符号 为 一 组 ， 那 么 扩展 的 符号 集 就 是 
大 个 符号 


人 ~ 
(k) 
SOOT = {S181 t Sy, S181 0t $2508, SIS1 °° Sns SPS] S2813" SnSn *** Sn} 
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注意 ， 新 符号 集合 S$ NK En. MRAR (MM, k23), MAMTASRAK 
际 应 用 都 有 m 次 1， 那 么 上 将 会 是 一 个 非常 庞大 的 数字 ,这 表明 所 需 的 符号 表 也 将 变 得 非常 庞大 。 
这 个 开销 使 得 扩展 的 赫 夫 受 编码 不 够 实用 。 

[2] 中 指出 ， 如 果 S en, BAS 中 每 个 符号 所 需 的 平均 位 数 是 


ms<T<n+ (7.7) 


这 样 我 们 就 缩小 了 编码 方法 最 好 的 理论 上 界 。 然 而 ， 这 并 没有 如 我 们 所 期 望 的 那样 有 优 于 原始 的 
ARRA ARKAA D 的 改进 。 


7.4.3 AENA ER 


赫 夫 曼 算法 需要 有 关 信息 源 的 先 验 统计 知识 ， 而 这 样 的 信息 通常 很 难 获得 。 这 在 多 媒体 应 用 
中 表现 尤为 突出 ， 数 据 在 到 达 之 前 是 未 知 的 ， 例 如 在 直播 〈 或 流 式 ) 的 音频 和 视频 中 。 即 使 能 够 
获得 这 些 统计 数字 ， 符 号 表 的 传输 仍然 是 一 笔 相 当 大 的 开销 。 

对 于 赫 夫 曼 编码 非 扩展 版 本 ， 前 面 的 讨论 假定 了 一 种 0 阶 模型 。 也 就 是 说 ， 符 号 /字符 都 是 相 
互 独立 的 ， 彼 此 之 间 没 有 任何 联系 。 一 种 包含 上 下 文 信息 的 方法 是 每 次 向 前 〈 或 向 后 ) 考察 大 个 
符号 ;这 就 是 所 谓 的 大 阶 模型 。 例 如 ，1 阶 模型 除了 包含 “gq” 和 “wu” 各 自 的 概率 之 外 ， 还 可 以 
包含 如 “qu ”的 概率 之 类 的 统计 数字 。 然 而 ， 这 又 一 次 表明 当 大 > 1 时 , 大 阶 模型 需要 存储 和 发 送 
更 多 的 统计 数据 。 

解决 上 述 问 题 的 方案 就 是 使 用 自 适 应 压缩 算法 (adaptive compression algorithms)， 在 这 种 算 
法 中 ， 统 计数 字 是 随 着 数据 流 的 到 达 而 动态 地 收集 和 更 新 的 。 概 率 不 再 是 基于 先 验 知识 而 是 基于 
到 目前 为 止 实际 收 到 的 数据 。 之 所 以 说 这 种 新 的 编码 方法 是 自 适应 的 ， 是 因为 随 着 接收 到 的 符号 
的 概率 分 布 的 改变 ， 符 号 将 会 被 赋予 新 的 (更 长 或 更 短 的 ) 码 字 。 这 种 方法 在 内 容 ( 某 一 场景 的 
音乐 或 色彩 ) 和 统计 数字 快速 变化 的 多 媒体 数据 中 尤为 适用 。 

作为 例子 ， 我 们 在 这 一 节 介 绍 自 适 应 的 赫 夫 要 编码 (adaptive Huffman coding) 算法 。 其 中 ， 

许多 思想 也 可 以 适用 于 其 他 的 自 适 应 压缩 算法 。 
过 程 7-1 自 适应 的 赫 夫 黑 编 码 的 过 程 


ENCODER DECODER 


Initial_code(); Initial_code(); 
while not EOF while not EOF 

{ { 
get(c); decode(c); 
encode (c); output (c); 
update_tree(c); update_tree(c); 
} } 


e Initial_code 为 符号 分 配 一 些 初始 的 编 解 码 双方 已 达成 共识 的 码 字 , 但 是 不 包含 任何 有 
关 频 率 的 先 验 知识 。 比 如 ， 可 以 使 用 传统 的 ACSI 码 为 这 些 字符 符号 编码 。 
。update_tree 是 一 个 构造 自 适应 赫 夫 曼 树 的 过 程 。 它 主要 完成 两 个 任务 ,将 符号 (包括 
任何 新 的 符号 ) 的 出 现 次 数 加 1 并 更 新 树 的 配置 。 
“ 赫 夫 曼 树 必须 总 是 保持 其 兄弟 性 质 ， 也 就 是 说 所 有 的 节点 (内 部 节点 或 叶子 节点 ) 都 是 
按照 计数 递增 的 顺序 排列 的 。 所 有 的 节点 按 从 左 到 右 、 自 下 而 上 的 顺序 编号 。( 如 图 7-6 


所 示 ， 第 一 个 节点 是 LA: (1)， 第 二 个 节点 是 2.B:(1)， 依 此 类 推 ， 其 中 括号 里 的 数字 
是 出 现 次 数 。) 如 果 违反 了 兄弟 性 质 ， 则 将 触发 一 个 交 欣 过 程 对 节点 进行 重新 排列 。 
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。 当 必须 进行 交换 时 ， 有 具有 计数 N 的 最 远 的 节点 将 会 与 计数 刚刚 增加 到 N+1 的 节点 交换 。 
注意 ， 如 果 计 数 为 N 的 节点 不 是 叶子 节点 ， 而 是 某 个 子 树 的 根 节点 ， 则 该 节点 的 整个 子 
树 将 随 其 一 同 交换 。 
© 编码 器 和 解码 器 必须 使 用 完全 相同 的 Initial_code Ml update_tree 例 程 。 
图 7-6a 描述 了 具有 一 些 已 接收 到 的 符号 的 一 棵 赫 夫 曼 树 。 图 7-6b 给 出 了 又 收 到 一 个 A R 
第 二 个 A) 后 的 更 新 树 。 这 使 得 A 的 计数 增加 到 N+1 =2 并 且 触 发 了 一 次 交换 。 这 时 , 计数 为 N=1 
的 最 远 的 节点 是 D:(1)。 因 此 A:(2) 和 D:(1) 交 换 。 


9. (9) 9.(10) 





1.A:() 2.B:(1) 3.C:(1) 4. D:(1) 1.D:(1) 2.B:(1) 3.C:(1) 4. A:(2) 
a) MAES b) 接收 到 第 2 个 “A” 触 发 一 次 交换 
9. (10) 


9. (10) 





1.D:(1) 2.B:(D) 3. C:(1) 4.A:(2+1) 1. D:(1) 2. B:(1) 
c-1) 接收 到 第 3 个 “A” 时 需要 进行 交换 c-2) 进一步 交换 


Lap 





1. D:(1) 2. B:(1) 
c-3) 接收 到 第 3 个 “A” 后 的 赫 夫 曼 树 


图 7-6 更 新 自 适 应 赫 夫 曼 树 的 节点 交换 过 程 


很 明显 ， 先 将 ADA B:(1) 交 换 ， 然 后 和 C:(1) 交 换 ， 最 后 和 D:(1) 交 换 也 可 以 得 到 同样 的 结 
果 。 但 问题 是 这 个 过 程 要 经 过 三 次 交换 ， 而 “与 最 远 的 计数 为 N 的 节点 ” 交换 的 原则 可 以 帮助 我 
们 有 效 地 避免 这 些 不 必要 的 步骤 。 

收 到 第 3 A 后 赫 夫 曼 树 的 更 新 要 更 复杂 一 些 ， 图 7-6c-1 到 c-3 给 出 了 交换 的 三 个 步骤 。 因 
为 A:(2) 会 变 成 A:(3)( 暂 时 记 为 A:(2+1)), 所 以 有 必要 将 A:(2+1) 与 第 5 个 节点 交换 。 这 在 图 7-6c-1 
中 用 箭头 标 出 。 

由 于 第 5 个 节点 不 是 叶子 节点 ， 所 以 带 有 节点 1.D:(1)，2.B:(1) 和 5.(2) 的 子 树 将 作为 一 个 整体 
与 A:(3) 交 换 。 图 7-6c-2 给 出 了 第 一 次 交换 后 的 赤 夫 曼 树 。 现 在 第 7 个 节点 的 计数 将 变 成 (5+1)， 
这 将 触发 与 第 8 个 节点 的 一 次 交换 。 图 7-6c-3 给 出 了 第 二 次 交换 后 的 赫 夫 曼 树 。 

上 面 的 例子 给 出 了 由 在 保持 自 适应 赫 夫 受 树 的 兄弟 性 质 的 一 个 更 新 过 程 一 一 树 的 更 新 有 时 需 
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要 多 次 交换 才能 完成 。 这 时 ， 应 当 采 用 “ 自 底 向 上 ”的 方式 ， 从 最 底层 需要 交换 的 节点 开始 ， 通 
过 多 步 实现 交换 。 换 名 话说， 更 新 是 顺序 执行 的 ， 先 按 顺序 对 树 节 点 进行 考察 ， 在 需要 交换 的 地 
方 交换 节点 。 

为 了 清楚 地 说 明 更 多 的 实现 细节 ， 我 们 来 看 看 另 一 个 例子 。 这 里 ， 我 们 将 不 再 只 是 说 明 树 的 
更 新 过 程 ， 而 是 准确 的 给 出 传送 什么 位 。 


例 7-1 符号 串 AADCCDD WAER AER 


假设 给 编码 器 和 解码 器 分 配 的 初始 ，” 表 7-3 使 用 自 适 应 赫 夫 曼 编码 为 AADCCDD 分 配 初始 码 
初始 代码 


编码 遵循 字母 表 中 从 A~Z26 个 字母 的 
ASCII 码 顺序 ， 如 表 7-3 所 示 。 为 了 改进 
该 算法 的 实现 ， 我 们 采用 了 新 的 规则 : 在 
第 一 次 发 送 任何 字符 /符号 之 前 ,必须 先 发 
送 一 个 特殊 的 符号 NEW。NEW 的 初始 码 
是 0。NEW 的 计数 总 是 保持 为 0 (计数 永 
不 增加 ): 因此 它 总 是 可 以 表示 成 图 7-7 中 
的 NEW:(0)。 

图 7-7 给 出 了 构建 赫 夫 曼 树 的 所 有 步 又 。 开 始 时 , 没有 树 。 对 于 第 一 个 A, RIK 0 表示 NEW, 
发 送 初始 码 00001 代表 A。 然 后 ， 创 建树 ， 如 图 中 的 第 一 棵 树 ， 标 为 “A”。 这 时 ， 编 码 器 和 解码 





器 都 创建 了 相同 的 第 一 棵 树 ， 可 以 看 出 第 二 个 A 的 编码 为 4， 因此 发 送 的 编码 为 1。 





收 到 第 2 个 A 后 ， 树 被 更 新 ， 如 图 所 示 标 为 AA。 收 到 D AC 后 的 更 新 也 是 类 似 的 。 这 时 产 
生 了 更 多 的 子 树 ， 而 NEW 的 编码 也 越 来 越 长 ， 从 0 到 00 到 000。 


a) (2) (3) 





人 N 0 1 
ad) 
NEW:(0) A:(D) NEW:(0) A:(2) 0 1 A: 
NEW:(0)  D:(1) 
A “AA” AAD 
(4) (4) (4) 
0 1 0 1 1 
(2) (2) (2+1) 
0 1 A: 0 1 A:(2 0 i A:(2) 
a) (2) a) (2) wy (2) 
0 1 DD 0 1 paw 0 1 ex) 
NEW:(0) CD NEW:(0) C:(1+1}) NEW:(0)  D:() 
“AADC” “AADCC” #981 “AADCC” HR 2 
(5) (6) 
0 1 0 1 
B) (4) 
A:Q 0 1 A:(2 0 1 
(2) a) (2) Q) 
1 C:(2) 0 1 C:(2) 
NEW:(0) D: NEW:(0) D2) NEW:(0) A:Q) 
“AADCC” 3 “AADCCD” “AADCCDD” 


图 7-7 AADCCDD 的 自 适应 赫 夫 曼 树 
从 AADC 到 AADCC 经 过 了 两 次 交换 。 我 们 通过 三 个 步骤 来 清楚 地 说 明 这 个 更 新 过 程 。 所 需 
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的 交换 仍然 用 箭头 标 出 。 
。AADCC 步 又 一 CC 的 频率 计数 从 1 增加 到 1+1=2; 这 触发 了 C5 D:(1) 交 换 。 
。AADCC 步骤 二 CAD 交换 后 ，C:(2) 的 父 节点 的 计数 将 从 2 增加 到 2+1=3; 这 又 触发 了 
C 与 A:(2) 的 交换 。 
。AADCC 步骤 三 ”最 后 A 与 C 的 父 节点 交换 。 
表 7-4 给 出 了 发 送 给 解码 器 的 所 有 的 符号 和 编码 (若干 0 和 1) 序列 。 


表 7-4 发 送 给 解码 器 的 符号 和 编码 序列 
ma | [om [1 | o | om | [won | or | wo | io 
需要 着 重 强调 的 是 ， 某 个 符号 的 编码 常常 会 随 着 自 适 应 赫 夫 曼 编码 的 编码 过 程 而 改变 。 最 近 
越 频繁 出 现 的 符号 ， 编 码 越 得 。 例 如 ， 在 AADCCPPD 之 后 ， 当 字母 D 取代 A 成 为 出 现 频率 最 高 
的 符号 时 ， 它 的 编码 将 从 101 变 成 0。 当 然 这 也 是 自 适应 算法 的 基本 性 质 ， 即 根据 符号 的 新 的 概 
率 分 布 来 动态 地 为 符号 分 配 新 的 编码 。 


本 书 的 网 站 上 的 “Squeeze Page” 提 供 了 自 适 应 赫 夫 曼 编 码 的 Java applet， 可 以 帮助 你 学 习 这 


个 算法 。 
7.5 基于 字典 的 编码 


Lempel-Ziv-Welch (LZW) 算法 利用 了 一 种 自 适应 的 、 基 于 字典 的 压缩 技术 。 和 变 长 编码 方 
A (其 中 码 字 的 长 度 不 同 ) 不 同 ，LZW 使 用 定 长 的 码 字 来 表示 通常 会 在 一 起 出 现 〈 如 英文 中 的 单 
词 ) 的 符号 /字符 的 变 长 的 字符 串 。 

和 其 他 的 自 适应 压缩 技术 一 样 ，LZW 编码 器 和 解码 器 会 在 接收 数据 时 动态 地 创建 字典 , 编码 
器 和 解码 器 也 会 产生 相同 的 字典 。 这 样 ， 由 于 一 个 编码 可 以 为 一 个 或 多 个 符号 /字符 所 使 用 ， 所 以 
数据 压缩 得 以 实现 。 

LZW 在 实现 过 程 中 不 断 将 越 来 越 长 的 重复 条 目 插入 字典 中 , 然后 将 字符 串 的 编码 而 不 是 字符 
BAS RIS. LZW 的 前 身 是 Jacob Ziv 在 1977 年 创建 的 LZ77[9] 和 Abraham Lempel 在 1978 
年 创建 的 LZ78[10]. Terry Welch[11] 在 1984 年 改进 了 这 种 算法 。 许 多 应 用 中 都 采用 了 LZW， 如 
UNIX compress, ARM) GIF 格式 以 及 用 于 调制 解 调 器 的 V42 bis 等 。 


算法 7-2 LZW 压缩 
BEGIN 
s = next input character; 
while not EOF 
{ 


c = next input character; 


if s + c exists in the dictionary 
s = 8S + Ci 
else 
{ 
output the code for s; 
add string s + ¢ to the dictionary with a new code; 
S$ = CC; 
} 


output the code for s; 
END 
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例 7-2 35% ABABBABCABABBA 进行 LZW 压缩 
我 们 从 一 个 非常 简单 的 字典 〈 也 可 以 称 作 字符 串 表 ) 开始 ， 初 始 时 只 包含 三 个 字符 和 编码 ; 


code string 
1 A 
2 B 
3 C 


现在 ， 如 果 输 入 字符 申 是 ABABBABCABABBA， 则 LZW 压缩 算法 的 工作 流程 如 下 : 


c output code string 


1 A 
2 B 
3 C 
“A B 1 4 AB 
B A 2 5 BA 
A B 
AB B 4 6 ABB 
B A 
BA B 5 7 BAB 
B C 2 8 BC 
C A 3 9 CA 
A B 
AB A 4 10 ABA 
A B 
AB B 
ABB A 6 11 ABBA 
A EOF 1 


输出 编码 是 124523461。 这样 只 需 发 送 9 个 编码 ， 而 不 是 14 个 字符 。 如 果 我 们 假设 每 个 
字符 或 编码 都 用 1 个 字 节 传送 , 那么 所 带 来 的 节约 是 很 可 观 的 (这 时 压缩 比 将 是 14/9=1.56)。( 切 
W. Æ LZW 这 种 自 适应 算法 中 ， 编 码 器 和 解码 器 都 分 别 独立 地 创建 自己 的 字符 串 表 ， 因 此 没有 
任何 传输 字符 串 表 的 开销 。) 

显然 ， 上 例 的 输入 字符 串 中 有 很 多 宛 余 ， 这 是 它 能 够 迅速 实现 压缩 的 原因 。 一 般 来 说 ，LZW 
的 节约 只 有 在 文本 长 度 超过 上 百 字 节 的 时 候 才 会 显现 出 来 。 


ERK LZW 算法 很 简单 ， 它 并 没有 选择 最 优 的 新 字符 串 插入 字典 中 。 因 此 ， 它 的 字符 串 表 
会 如 上 所 示 迅 速 增 大 。 典 型 的 用 于 文本 数据 的 LZW 实现 使 用 12 位 的 码 长 。 因 此 ， 它 的 字典 最 多 
可 以 容纳 4096 个 条 目 ， 其 中 最 前 面 的 256 (0~255) 个 条 目 是 ASCIH 码 。 如 果 我 们 把 这 个 考虑 在 
内 ， 上 面 的 压缩 比 会 减 小 到 (14x8)/(9x12) =1.04 。 


算法 7-3 LZW 解压 缩 (简化 版 本 ) 


while not EOF 
{ 
k = next input code; 
entry = dictionary entry for k; 
output entry; 
if (s != NIL) 
add string s + entry[0] to dictionary 
with a new code; 
s = entry; 
} 
END 


eS 


例 7-3 对 字符 串 ABABBABCABABBA 进行 LZW 解压 缩 
解码 器 的 输入 是 124523461。 其 初始 字符 串 表 与 编码 器 的 初始 字符 号 表 一 致 。 





LZW 解码 算法 的 工作 流程 如 下 ， 


entry/output 


Ar WN Um NF 


ay 


on Bu» 


POW mH U A 


Pe 


code string 


BI AUERI 


显然 ， 输 出 字符 串 是 ABABBABCABABBA 一 一 与 原始 字符 串 完 全 相同 。 


LZW 算法 细节 

如 果 对 LZW 解压 缩 算法 的 简化 版 本 进行 仔细 研究 就 会 发 现 一 个 潜在 的 问题 。 在 自 适 应 地 更 
新 字典 时 ， 编 码 器 的 动作 有 时 会 先 于 解码 器 发 生 。 例 如 ， 在 序列 ABABB 之 后 ， 编 码 器 将 输出 编 
码 4 并 为 新 字符 串 ABB 创建 一 个 编码 为 6 的 字典 条 目 。 

解码 器 收 到 编码 4 后 ， 产 生 输 出 AB， 此 时 字典 中 会 插入 一 个 新 字符 串 BA 的 编码 5。 这 在 上 
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面 的 例子 中 会 重复 出 现 多 次 ， 比 如 编码 器 又 输出 了 一 个 编码 4 和 编码 6 之 后 。 从 某 种 意义 上 说 ， 


这 是 可 以 预见 的 。 毕 竟 ， 这 是 一 个 顺序 的 过 程 ， 所 以 编码 器 的 动作 必须 在 解码 器 之 前 。 不 过 在 这 
个 例子 中 ， 这 并 没有 引发 任何 问题 。 

Welch[11] 指 出 ，LZW 解压 缩 算 法 的 简化 版 本 在 下 面 的 场景 中 将 会 出 现 错误 。 假 设 输 入 字符 
#  ABABBABCABBABBAX 


LZW 编码 器 : 


output 


code string 


FAET 


ABBA 


MPFrwWOPr DWN P ow Pr oOo PY 


10 


11 


编码 器 的 输出 编码 序列 《也 就 是 解码 器 的 输入 序列 ) 是 124523610 


简单 的 LZW 解码 器 如 下 : 


184 
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s k entry/output code string 


1 A 
2 B 
3 C 
NIL 1 A 
A 2 B 4 AB 
B 4 AB 5 BA 
AB 5 BA 6 ABB 
BA 2 B 7 BAB 
B 3 c 8 BC 
c 6 ABB 9 CA 
ABB 10 22? 


“?3??” 表 明 解 码 器 遇 到 了 一 个 问题 : 找 不 到 与 最 后 一 个 输入 编码 10 对 应 的 字典 条 目 。 仔 细 分 
析 会 发 现 编码 10 是 编码 器 端 最 新 产生 的 ， 由 字符 、 字 符 串 和 字符 拼接 而 成 。 在 本 例 中 ， 字 符 是 
A， 而 字符 串 是 BB 一 一 也 就 是 A+BB+A。 与 此 同时 ， 编 码 器 产生 的 输出 符号 序列 是 A，BB，A， 
BB，A。 

这 个 例子 说 明 ， 只 要 待 编码 的 符号 序列 是 字符 、 字 符 串 、 字 符 、 字 符 串 、 字 符 ， 等 等 ， 编 码 
器 就 会 产生 一 个 新 的 编码 来 表示 字符 + 字符 串 + 字 符 ， 并 且 在 解码 器 还 没 来 得 及 产生 这 个 编码 的 时 
候 ， 马 上 将 其 投入 使 用 。 

幸运 的 是 ， 这 是 上 述 简化 LZW 解压 缩 算法 唯一 一 个 会 出 现 失败 的 情况 。 而 且 ， 当 这 种 情况 
RER, RE s= 字符 + 字符 串 。 这 种 算法 的 改进 版 本 能 够 通过 检查 解码 器 端的 字典 中 是 否 有 输 
入 编码 的 定义 来 处 理 这 种 异常 。 如 果 没 有 定义 ， 它 会 简单 地 认为 这 个 编码 代表 符号 s+ s[0]， 也 就 
是 字符 + 字符 串 + 字符 。 


算法 7-4 {ZW 解压 缩 算法 《改进 版 本 ) 


s = NIL; 
while not EOF 
{ 


k = next input code; 
entry = dictionary entry for k; 


/* exception handler */ 
if (entry == NULL) 
entry = s + s[0]; 


output entry; 
if (s != NIL) 
add string s + entry[0] to dictionary 
with a new code; 
S = entry; 
} 
END 


具体 实现 时 字典 的 大 小 要 受到 实际 条 件 的 限制 。 比 如 ， 对 于 Gif， 字 上 典 最 多 可 以 有 4096 个 条 
目 ， 而 对 于 V.42 bis， 字 典 最 多 可 以 有 2048 个 条 目 。 然 而 ， 这 仍然 导致 了 长 度 为 12 位 或 11 位 的 
LZW 编码 ， 比 原始 数据 的 字 长 (8 位 ASCH) 要 长 。 

在 实际 的 应 用 中 , BE RRE [lo lma] 范围 内 。 对 于 UNIX compress 命令 来 说 , h9, Imax 
的 默认 值 为 16。 字 典 初始 大 小 为 2 。 当 字典 被 填 满 时 ， 码 长 将 增加 1， 这 个 过 程 可 以 重复 进行 ， 
直到 I = [max 为 止 。 

如 果 待 压缩 的 数据 没有 任何 可 重复 的 结构 ， 那 么 使 用 字典 条 目 中 新 编码 的 可 能 性 就 很 小 。 有 
时 ， 这 会 导致 数据 膨胀 (data expansion)， 而 并 非 数据 缩减 ， 因 为 码 长 常常 比 原始 数据 的 字 长 要 
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长 。 为 了 解决 这 个 问题 ，V.42 bis 建立 了 两 种 状态 ， 压缩 的 和 透明 的 。 当 检测 到 数据 膨胀 时 ， 压 
缩 停 止 ， 后 一 种 状态 被 激活 。 

因为 字典 的 大 小 有 最 大 值 限制 ， 所 以 一 旦 它 达 到 了 2™ 个 条 目 ，LZW 将 失去 其 自 适应 的 能 
力 ， 而 转变 成 静态 的 、 基 于 字典 的 技术 。UNIX compress 会 在 这 一 点 上 监控 自己 的 性 能 。 它 会 
在 压缩 比 低 于 某 个 立 值 的 时 候 将 字典 刷新 并 重新 初始 化 。 较 好 的 字典 管理 方式 应 当 是 移 除 一 些 
LRU (最 近 很 少 使 用 ) 的 条 目 。V.42 bis 将 会 搜索 字典 中 所 有 非 其 他 条 目的 前 级 的 条 目 ， 因 为 这 
意味 着 这 些 编码 在 创建 后 并 没有 被 使 用 。 


7.6 算术 编码 


算术 编码 (arithmetic coding〉 是 一 种 更 现代 的 编码 方法 ， 在 实际 中 比 赫 夫 曼 编码 更 有 效 。 
EE 20 世纪 七 八 十 年 代 [12，13，14] 已 发 展 得 比较 成 熟 。 最 初 的 算术 编码 的 思想 是 在 Shanon 
1948 年 的 著作 [3] 中 提出 的 。Peter Elias 第 一 次 用 递归 方法 实现 了 这 个 算法 (没有 发 表 ， 但 在 
Abramson 1963 的 书 [15] 中 有 所 提 及 )。 这 种 方法 后 来 得 到 了 进一步 的 发 展 并 在 Jelinek 1968 年 [16] 
的 书 中 有 所 描述 。 现 代 算 术 编 码 要 归功 于 Pasco (1976) [17]、Rissanen 和 Langdon (1979) [12] 
的 工作 。 

通常 情况 下 在 非 扩 展 方式 中 )， 赫 夫 曼 编码 给 每 个 符号 分 配 一 个 整数 位 长 度 的 码 字 。 如 前 
BTR, log. 一 代表 信息 源 ;中 所 包含 的 信息 量 ， 等 于 表示 S 所 需 的 位 数 。 


当 某 个 符号 5, 具有 较 大 的 概率 CHIE 1.0) Bt, log, 二 将 会 接近 0， 这 时 用 1 位 来 表示 这 个 


符号 是 很 浪费 的 。 只 有 当 所 有 符号 的 概率 都 可 以 表示 成 2* 的 形式 时 (上 是 正 整 数 )， 码 字 的 平均 
长 度 才 能 够 到 达 最 优 , 即 ! =n (nite Mink (73) Pm, CRA RED. RE, Sete 
况 下 / >n。 

尽管 可 以 在 分 配 码 字 时 把 符号 划分 成 组 (就 像 在 扩展 的 赫 夫 曼 编 码 中 那样 ， 以 克服 只 能 给 每 
个 符号 分 配 整 数位 的 局 限 ， 但 是 赫 夫 曼 编 码 器 和 解码 器 所 需 的 结果 符号 表 会 变 得 非常 大 。 

算术 编码 把 整个 消息 看 作 一 个 单元 。 在 实际 中 ， 输 入 数据 通常 被 分 割 成 块 以 避免 错误 传播 。 
但 是 ， 在 接 下 来 的 讨论 中 ， 我 们 采用 了 一 种 非常 简单 的 方法 并 引入 了 一 个 终止 符 。 

我 们 用 一 个 半 开 区 间 [a,5) 表示 一 条 消息 ， 其 中 a 和 4b 都 是 0 和 1 之 间 的 实数 。 初始 时 ， 区 间 
是 [0,1) 。 随 着 消息 长 度 的 增加 ， 区 间 的 长 度 将 缩小 ， 而 用 来 表示 区 间 的 位 数 将 增加 。 假 设 有 符 
号 表 [4，B，C，D，E，F，$]。 其 中 ，$ 是 用 于 表示 消息 结束 的 特殊 符号 ， 已 知 的 概率 分 布 如 
图 7-8a 所 示 。 


算法 7-5 算术 编码 的 编码 器 
BEGIN 
low = 0.0; high = 1.0; range = 1.0; 


while (symbol != terminator) 
{ 
get (symbol); 
low = low + range * Range_low (symbol); 
high = low + range * Range_high (symbol); 
range = high - low; 
} 


output a code so that low <= code < high; 
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信号 可 能 性 范围 
A 0.2 [0, 0.2) 
B 0.1 [0.2, 0.3) 
C 0.2 (0.3, 0.5) 
D 0.05 (0.5, 0.55) 
E 0.3 (0.55, 0.85) 
F 0.05 [0.85, 0.9) 
$ 0.1 (0.9, 1.0) 
a) 符号 的 概率 分 布 
1.0 0.5 0.34 0.334 03322 0.3322 
oo LS ‘Ts is -Ts Ts $ 
ogs | F /TF IT Fe? FU F ， F 
/ ‘ 
7 1 ‘ 
E , E i E E E à; E 
t t ` 
+ $ f ‘ 
0.55 + ‘ ' -~ -- 十 
0.5 toe 十 了 N D \ D \ f° ` D 
c c y Cc \ CA C dc 
1 ` ` ‘ 
0.3 十 - -~ ! ` ` 
BOS B ; B \ [B Ts ‘Ts 
0.2 十 N --- y \ 十 ` 
N A A A 
A NTA A “| A ‘LA ‘| A 
A 
L ‘Lnn ` `L L 
0 03 03 0.322 0.3286 0.33184 
b 区 间 缩 小 的 图 形 表示 
aS 低 
0 
C 03 
A 0.30 
E 0.322 
E 0.3286 
$ 0.33184 | 0.33220 | 0.00036 





c) $i low, high 和 range 值 


图 7-8 BRS: WAS CARESS 


7-8b 和 7-8c 给 出 了 对 字符 串 CAEE$ 进 行 编码 的 编码 过 程 。 初 始 时 ，low = 0, high=1.0, 
range=1.0。 在 第 一 个 符号 C 之 后 ，Range_low (C) =0.3, Range_high (C) =0.5; 所 以 ， 
low=0+1.0x0.3=0.3，high=0+1.0x0.5=0.5。 这 时 新 的 range 减 小 到 0.2. 
为 清楚 起 见 ， 图 7-8b 扩大 了 每 一 步 不 断 减 小 的 区 间 ( 如 虚线 所 示 )。 在 第 二 个 符号 A 之后， 
low, high 和 range 的 值 分 别 为 0.30，0.34 和 0.40。 这 个 过 程 重复 进行 ， 直 到 接收 到 终止 符 $ 为 上 上。 
XY, low 和 high 分 别 是 0.33184 和 0.33220。 很 显然 ， 最 后 我 们 得 到 : 
range = Pe x P, X Pg x Pg X R = 0.2x0.2x0.3x0.3x0.1 = 0.00036 


编码 的 最 后 一 步 要 求 产生 一 个 在 区 间 How, high) 中 的 数字 。 尽 管 选择 这 样 一 个 十 进 制 的 数字 
很 容易 ， 比 如 0.33184,，0.33185,， 或 者 上 例 中 的 0.332， 但 选择 一 个 二 进 制 的 分 数 就 没 那么 明显 了 。 


下 面 的 算法 能 够 保证 ， 只 要 low 和 high 分 别 是 区 间 的 两 端 并 且 low < high ， 就 能 够 找到 一 个 最 短 
的 二 进 制 码 字 。 
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过 程 7-2 为 编码 器 产生 码 字 


while (value(code) < low) 


assign 1 to the kth binary fraction bit; 
if (value(code) > high) 
replace the kth bit by 0; 
k=k +1; 
} 
END 


对 于 上 面 的 例子 ，low = 0.33184，high = 0.3322。 如 果 我 们 给 第 一 个 二 进 制 分 数位 分 配 1， 它 
的 二 进 制 值 就 是 0.1， 但 是 十 进 制 值 value(code) = value(0.1) = 0.5 > high 。 因 而 ， 我 们 为 第 一 个 位 
分 配 0。 因 为 在 while 循环 进行 的 过 程 中 ，value(0.0) =0< low 。 

为 第 二 个 位 分 配 1 会 产生 二 进 制 编码 0.01 和 value(0.01) = 0.25 < high ， 因 而 可 以 接受 。 又 因 
为 value(0.01) < low 也 成 立 ， 所 以 可 以 继续 迭代 。 最 终 ， 生 成 的 二 进 制 码 字 是 0.01010101， 也 就 是 
27? +2 +2% +2 =0.33203125 。 

必须 指出 的 是 , 我 们 很 幸运 地 找到 了 一 个 只 有 8 位 的 码 字 来 代表 CASSA MER EA, 这 时 ， 


1 1 1 1 1 1 
log2 一 + log, — + log? — + logy —+ log: — = log: — = logz =11.44 ， 这 表明 可 
82 Po 62 P, E2 Pr B2 Pg 82 B 82 range :0 


以 使 用 12 位 来 对 类 似 的 符号 串 编码 。 
可 以 证 明 [2]， ora Jeta. 也 就 是 说 ， 在 最 坏 的 情况 下 ， 算 术 编 码 中 最 短 的 码 字 长 


1 1 
k =| log, 一 一 一 |=|1 (7.8) 
| 082 | | ?82 起 | 


其 中 ，Pi 是 符号 i 的 概率 而 range 是 编码 器 产生 的 最 终 的 区 间 。 
DA BRIBE BERS ME ag 


joes 2 


一 般 来 说 ， 算 术 编码 的 性 能 优 于 赫 夫 曼 编 码 ， 因 为 前 者 将 整个 消息 看 作 一 个 单元 ， 而 后 者 受 
到 了 必须 为 每 个 符号 分 配 整数 位 的 限制 。 例 如 ， 赫 夫 曼 编码 需要 12 位 来 对 CASS$ 编 码 ， 而 这 只 
是 算术 编码 中 可 能 遇 到 的 最 坏 情 况 。 

而 且 ， 赫 夫 曼 编码 并 非 总 能 够 取得 式 〈“7.8) 给 出 的 上 界 。 可 以 证 明 (参看 练习 5), mee 
号 表 是 4，B3，C]， 已 知 的 概率 分 布 是 P,=0.5，Ps =0.4，Pc=0.1， 那 么 为 了 发 送 BBB, PER Be 
码 将 需要 6 位 ， 比 [log2(1/TIiPs)|=4 多， 而 算术 编码 只 需要 4 位 。 





度 为 上 位 ， 并 且 











将 变 得 非常 大 ，log; 上 _ 和 
e range 





me wae 


算法 7-6 算术 编码 的 解码 器 
BEGIN 


get binary code and convert to decimal value = value (code); 
Do 





{ 
find a symbol s so that 
Range_low(s) <= value < Range_high(s); 
output s; 
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low = Rang_low(s); 

high = Range_high(s); 

range = high - low; 

value = [value - low] / range; 


Until symbol s is a terminator 
END > 


表 7-5 说 明了 上 例 的 解码 过 程 。 初始 时 ，value = 表 7-5 “算术 编码 ， 对 符号 串 CAEE$ 解 码 


0.33203125。 因 为 Range_low (C) =0.3<0.33203125< 
0.5= Range_high CC)， 所 以 第 一 个 输出 符号 是 C。 这 0.33203125 03 | 05 
使 得 value = [0.33203125-0.3]/ 0.2=0.16015625， 这 个 0.16015625 
值 又 决定 了 第 二 个 输出 符号 是 A。 最 后 ，value 为 0.80078125 
0.953125， 落 在 了 终止 符 $ 的 区 间 [0.9,1.0) 中 。 0.8359375 

前 面 描述 的 算法 在 实现 上 有 些 难 度 。 当 区 间 缩 小 ” 一 和 = 
时 ， 我 们 必须 使 用 高 精度 的 数字 来 编码 。 这 就 使 这 个 算法 的 实际 实现 不 太 可 行 。 幸 运 的 是 ， 我 们 
可 以 重新 调整 区 间 的 大 小 并 在 实际 实现 中 只 使 用 整数 算法 [18]。 

在 上 面 的 讨论 中 , 特殊 符号 $ 是 符号 串 的 终止 符 。 这 与 图 像 传输 中 发 送 一 个 end-of-line (EOF) 
很 类 似 。 传统 的 压缩 应 用 不 需要 终止 符 ， 因 为 编码 器 只 是 根据 输入 对 所 有 的 符号 进行 编码 ; 不 过 ， 
如 果 传 输 信道 /网 络 有 了 曲 声 ( 有 损 的 )， 那 么 保留 一 个 终止 符 ( 或 者 EOL) 有 助 于 解码 器 与 编码 器 
保持 同步 。 

EOL 符号 本 身 的 编码 是 一 个 有 趣 的 问题 。 通 常 ，EOL 到 最 后 都 会 变 得 相对 较 长 。Lei et al.[19] 
解决 了 部 分 问题 ， 并 提出 了 一 种 能 够 控制 生成 的 EOL 码 字 长 度 的 算法 。 


7.7 “无损 图 像 压 缩 

在 多 媒体 数据 压缩 中 应 用 最 广泛 的 一 种 压缩 技术 是 差分 编码 (differential coding)。 在 差分 编 
码 中 ， 数 据 减少 的 基础 是 数据 流 中 连续 符号 之 间 存 在 的 元 余 。 回 想 一 下 ， 在 研究 如 何 通过 预测 值 
和 误差 来 处 理 音频 时 ， 我 们 在 第 6 章 中 考虑 了 无 损 的 差分 编码 。 音 频 是 一 维 的 、 随 时 间 变 化 的 信 
号 。 而 这 里 我 们 期 望 将 从 音频 处 理 中 学 到 的 知识 应 用 到 二 维 (x，y)， 即 数字 图 像 信号 中 。 


7.7.1 图 像 的 差分 编码 


我 们 先 来 研究 数字 图 像 的 差分 编码 。 从 某 种 意义 上 说 ， 我 们 把 一 维 信号 及 其 值 域 转换 成 了 二 
维 (x，y)〔 图 像 的 行 与 列 ) 上 由 数字 索引 的 信号 。 在 后 面 ， 我 们 还 会 对 视频 信号 进行 研究 。 视 频 
信号 的 情况 更 加 复杂 ， 因 为 它 是 由 空间 和 时 间 (x，y，t) 索引 的 。 

由 于 物理 世界 的 连续 性 ， 图 像 中 背景 和 前 景 对 象 的 灰 度 亮度 或 颜色 ) 在 图 像 帧 之 间 的 变化 
是 相对 缓慢 的 。 由 于 过 去 我 们 是 在 时 间 域 上 处 理 音频 信号 的 ， 所 以 实践 者 通常 会 把 图 像 称 作 空间 
域 (spatial domain) 上 的 信号 。 一 般 来 说 ， 变 化 缓慢 的 成 像 性 质 会 使 得 图 像 空间 上 的 相 邻 像素 具 
有 相似 亮度 值 的 几率 变 大 。 给 定 一 幅 原始 图 像 (x, y) ， 使 用 简单 的 差分 操作 符 ， 我 们 可 以 按照 如 
下 方式 定义 一 个 差分 图 像 d(x, y) : 








d(x, y) = I(x, y)— T(x -1, y) (7.9) 


这 是 对 由 整数 x 和 y 定义 的 图 像 使 用 偏 微 分 操作 符 9/9x 的 一 个 简单 的 近似 。 
另 一 种 方法 是 利用 离散 的 2D Laplacian 操作 符 来 定义 差分 图 像 d(x, y): 


d(x, y) =41(x, y)-I(x, y-D- I(x, y+ D—-T +1, y)}— (x-1, y) (7.10) 
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在 这 两 种 情况 下 ， 图 7-9d 给 出 了 差分 图 像 的 直方 图 ， 这 个 直方 图 是 由 对 7-90 中 的 原始 图 像 
求偶 导数 d(x, y) 得 到 的 图 7-9b 中 的 差分 图 像 派生 的 。 注 意 ， 如 图 7-9c 所 示 , 7 的 直方 图 要 更 宽 一 
He. OEH, AT AT RR d 的 焙 ， 因 为 图 像 1 的 亮度 值 具有 更 均匀 的 分 布 。 因 此 ， 在 
差分 图 像 上 使 用 赫 夫 曼 编 码 或 其 他 的 变 长 编码 方法 会 使 码 字 的 长 度 更 短 , 对 差分 图 像 的 压缩 更 有 效 。 
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a) c) d) 
图 7-9 原始 和 求 导 图 像 的 分 布 。 图 a 和 图 b 是 原始 灰 度 图 像 及 其 偏 导 数 图 像 ; 
图 c 和 图 d 是 原始 和 求 导 图 像 的 直方 图 。 所 用 图 片 是 通常 采用 的 Barb 图 像 [192| 


7.7.2 无 损 JPEG 


无 损 JPEG 是 JPEG 图 像 压缩 的 一 个 特例 。 由 于 这 种 方法 没有 任何 损失 ， 所 以 它 与 其 他 JPEG 
方式 有 极 大 不 同 。 我 们 把 这 个 内 容 放 在 本 章 讨论 ， 而 更 常用 的 JPEG 方法 将 在 第 9 章 中 介绍 。 当 
用 户 在 图 像 工具 中 选择 了 100% 的 质量 因子 (quality factor) 时 ， 将 调用 无 损 的 JPEG 编码 。 为 了 
保证 完整 性 ， 无 损 的 JPEG 是 包含 在 JPEG 压缩 标准 中 的 。 

下 面 的 预测 方法 应 用 在 未 处 理 过 的 原始 图 像 中 
(或 者 原始 彩色 图 像 的 每 个 色 带 中 )。 它 主要 包括 两 个 
DIR: 形成 差分 预测 和 编码 。 

1) 预测 器 将 相 邻 的 三 个 像素 值 组 合成 当前 像素 的 
预测 值 , 在 图 7-10 中 由 X 表示 。 预测 器 可 以 使 用 表 7-6 
中 列 出 的 七 种 方案 中 的 任何 一 种 预测 方法 。 如 果 使 用 
预测 器 P1， 则 相 邻 亮度 值 A 将 被 用 来 作为 当前 像素 的 
el aa i PE ee ae 图 7-10 无 损 JPEG 中 预测 器 的 相 邻 像素 。 

D 编码 器 将 预测 值 与 位 置 X 上 的 实际 像素 值 比较 pea esea nde 
并 使 用 我 们 在 前 面 讨论 的 某 种 无 损 的 压缩 算法 (如 赫 Has 
夫 曼 编码 ) 对 两 者 的 差 值 进行 编码 。 

因为 预测 必须 以 先前 已 编码 的 相 邻 像素 为 基础 ， 所 以 图 像 的 第 一 个 像素 K0，0) 只 能 使 用 其 自 
身 的 值 。 第 一 行 的 像素 总 是 使 用 预测 器 P1， 而 第 一 列 的 像素 总 是 使 用 预测 器 P2。 

无 损 的 JPEG 的 压缩 率 较 低 ， 这 使 得 它 不 大 适用 于 大 多 数 的 多 媒体 应 用 。 使 用 大 约 20 幅 图 像 
得 到 的 结果 表明 ， 无 论 使 用 何 种 预测 器 ， 无 损 JPEG 的 压缩 率 总 在 1.0~3.0 之 间 浮 动 ， 平 均值 在 
2.0 左右 。 考 虑 了 水 平和 垂直 维度 上 的 邻近 节点 的 预测 器 4~7 比 预测 器 1~3 能 够 提供 更 好 的 压缩 
质量 〈 大 约 要 高 0.2~0.5 )。 

利用 测试 图 像 Lena、football、F-18 和 flowers， 表 7-7 给 出 了 几 种 无 损 压缩 技术 的 压缩 率 之 
间 的 比较 。 这 些 标准 图 像 可 以 在 本 书 的 网 站 上 有 关 本 章 的 Further Exploration 部 分 中 找到 。 
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本 章 对 各 种 无 损 压缩 算法 进行 了 探讨 和 研究 。 可 以 看 到 ， 这 些 压缩 算法 的 压缩 率 通 常 是 有 较 


大 限制 的 〈 最 大 值 在 2~3 左右 )。 我 们 在 后 续 几 章 中 将 要 讨论 的 多 媒体 应 用 都 需要 更 高 的 压缩 率 ， 
而 这 只 能 依靠 有 损 压 缩 方 法 来 实现 。 


7-6 无 损 JPEG 的 预测 器 表 7-7 无 损 JPEG 和 其 他 无 损 压缩 方法 的 比较 











无 损 JPEG 

最 优 无 损 JPEG 
压缩 LZW) 
gzip (LZ77) 
BHA-C)/2 gzip-9( 最 优 LZ77) 
(A+B)/2 pack AAR RRI) 


7.8 进一步 探索 


和 Khalid Sayood[2] 的 书 一 样 ，Mark Nelson 的 著作 [1] 也 是 有 关 数 据 压 缩 的 标准 参考 。 
本 书 的 网 站 上 有 关 本 章 内 容 的 “Further Exploration” 部 分 提供 了 大 量 有 关 无 损 压 缩 的 网 络 资 
源 ， 其 中 包括 : 

e 由 Mark Nelson 编译 的 一 套 绝 好 的 有 关 数 据 压 缩 的 资源 ， 包 括 图 书馆 ， 文 献 ， 以 及 畔 夫 曼 
编码 、 自 适应 赫 夫 曼 编码 、LZW 和 算术 编码 等 算法 的 源 代码 。 

。 自 适应 算术 编码 的 源 代码 。 

。 数 据 压缩 理论 的 网 页 ， 其 中 介绍 了 有 关 无 损 和 有 损 数据 压缩 技术 的 基本 理论 。Shannon 在 
1948 年 发 表 的 有 关 信息 论 的 文章 也 可 以 在 这 个 网 站 上 下 载 。 

。comp .compression 和 comp.compression.research 组 的 FAQ。 这 些 FAQ 回答 了 
数据 压缩 方面 的 很 多 常见 问题 。 

。 一 套 能 够 展示 自 适应 赫 夫 曼 、LZW 等 无 损 压 缩 交互 示例 的 小 程序 。( 值 得 一 提 的 是 ， 这 个 
网 页 是 一 个 本 科 三 年 级 的 学 生 在 阅读 了 本 书 之 后 , 在 多 媒体 的 期 末 课 程 设计 中 取得 的 成 果 。) 

。 有 关 算 术 编 码 的 详尽 介绍 。 

。 灰 度 测试 图 像 E-18 .bmp,flowers .bmp, football.bmp 以 及 lena.bmp。 


7.9 练习 


1. 假设 8 个 字符 的 分 布 是 A:(D、B:(D)、C:(D、D:(2)、E:(3)、F:(5)、G:(5)、H:(10)。 画 出 这 个 分 
布 的 赫 夫 曼 树 。( 因 为 这 个 算法 可 以 按照 不 同 的 顺序 对 具有 相同 概率 的 子 树 进 行 排列 ， 所 以 答 
案 不 唯一 。) 

2. (a) 下 面 这 个 图 像 的 粹 (mm) 是 多 少 ? 其 中 数字 (0, 20, 50, 99) 代表 灰 度 亮度 。 


1.26 
1.33 
0.87 
1.05 
1.05 


99 99 99 99 99 99 99 99 
20 20 20 20 20 20 20 20 
0 0 0 0 0 0 0 0 
0 0 50 50 50 50 0 0 
0 0 50 50 50 50 0 0 
0 0 50 50 50 50 0 0 
0 0 50 50 50 50 0 0 
0 0 0 0 0 0 0 0 
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(b) 给 出 在 对 这 幅 图 像 的 上 述 四 个 灰 度 值 进行 编码 时 构造 赫 夫 曼 树 的 详细 步骤 。 写 出 每 一 个 
亮度 值 的 结果 编码 。 
C) 使 用 你 的 赫 夫 曼 编 码 ， 每 个 像素 所 需 的 平均 位 数 是 多 少 ? Sn 比较 有 什么 结果 ? 
.考虑 一 个 有 两 个 符号 A 和 8B 的 符号 表 ， 其 概率 是 P(A)=x,P(B)=1-x。 
(a) BHU x ARSE, MARSA RAHA. (log.3=16, log.7=28.) 
(b) 讨论 为 什么 在 e 较 小 时 ， 两 个 符号 的 概率 分 别 是 12+e 和 1/2-e 时 炳 会 比 最 大 值 小 。 
(c) TERR: 对 于 一 个 能 够 产生 N 个 符号 的 信息 源 ， 当 所 有 符号 的 概率 相等 时 ， 炉 最 大 。 
d) 作为 一 个 小 型 的 编程 项 目 ， 编 写 代 码 验 证 上 面 的 结果 。 
. 扩展 的 赫 夫 曼 编 码 为 一 个 有 个 符号 的 组 分 配 一 个 码 字 。 但 是 为 什么 average) (每 个 符号 所 
需 的 位 数 ) 仍然 不 低 于 式 〈7.7) BH aN? 
5. (a) 与 赫 夫 曼 编 码 相 比 ， 算 术 编 码 有 哪些 优 缺 点 ? 
(b) 假设 有 符号 表 [4, B, C]， 已 知 概率 分 布 是 己 =0.5, Ps = 0.4, Pc =0.1。 为 简便 起 见 ， 我 们 也 
假设 编码 器 和 解码 器 都 认为 消息 的 长 度 总 是 3， 因此 ， 不 需 使 用 终止 符 。 
i .计算 使 用 赫 夫 蛇 编码 对 消息 BBB 进行 编码 所 需 的 位 数 ? 
ii, 计算 使 用 算术 编码 对 消息 BBB 进行 编码 所 需 的 位 数 ? 
6. (a) 与 原始 的 灰 夫 学 编码 算法 相 比 ， 自 适应 的 赫 夫 曼 编 码 有 哪些 优点 ? 
(b) 假设 使 用 自 适 应 赫 夫 曼 编 码 对 具有 四 个 字母 (a，bp，c，d) 的 信息 源 S 进行 编码 。 在 进行 
传输 之 前 ， 初 始 的 编码 是 a=00, b=01, c=10, d=11. WA 7-7 给 出 的 例子 ， 如 果 符 号 是 
第 一 次 被 发 送 ， 则 必须 首先 发 送 特殊 符号 NEW. 
图 7-11 是 发 送 了 字母 aabb 之 后 的 自 适 应 赫 
夫 曼 树 。 之 后 ， 解 码 器 接收 到 的 后 续 几 个 
字母 的 编码 位 流 是 01010010101. 
i .接收 到 的 后 续 的 几 个 字母 是 什么 ? 
ii， 画 出 接收 每 一 个 后 续 字母 后 的 自 适应 
KAS 
7. 比较 自 适 应 赫 夫 曼 编码 和 自 适应 算术 编码 的 自 
适应 率 〈 后 者 可 参看 本 书 的 网 站 )。 这 些 方法 
A M e RNR BAERS 图 7.11 HENARE 
8. 考虑 基于 字典 的 LZW 压缩 算法 。 假 设 符号 表 包 含 符 号 {0，1}。 给 出 其 对 应 的 字典 (符号 集合 
以 及 相关 的 编码 ) 以 及 当 输 入 为 0110011 时 ， 使 用 LZW 压缩 算法 的 输出 。 
9. 使 用 你 自己 喜欢 的 编程 语言 编程 实现 赫 夫 曼 编 码 、 自 适应 赫 夫 曼 编码 、 算 术 编 码 和 LZW 编码 
算法 。 自 己 设置 至 少 三 种 不 同 的 统计 数据 源 来 测试 这 些 算法 的 实现 。 就 每 种 数据 源 的 压缩 率 ， 
比较 和 评价 各 种 算法 的 性 能 。 
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第 8 章 有 损 压缩 算法 


在 这 一 章 里 ， 我 们 讨论 有 损 压 缩 方 法 。 由 于 信息 缺损 意味 着 在 误差 和 帧 率 之 间 权 衡 ， 因 此 我 
们 首先 考虑 失真 〈distortion) 的 量度 ， 如 方差 。 接 下 来 介绍 不 同 的 量化 器 ， 每 一 种 量化 器 都 有 
各 自 不 同 的 失真 情况 。 对 于 变换 编码 的 介绍 包括 用 于 JPEG 压缩 〈 见 第 9 章 ) 的 离散 余弦 变换 和 
Karhunen Loéve (K-L) 变换 。 此 外 还 简单 介绍 了 另 一 种 变换 方案 一 一 小 波 编码 。 


8.1 简介 


第 7 章 介绍 过 ， 当 图 像 的 直方 图 相对 平坦 时 ， 对 图 像 数 据 采 用 无 损 压 缩 技术 (如 赫 夫 曼 编码 、 
算术 编码 和 LZW)， 其 压缩 率 〈compression ratio) 很 低 ， 而 在 多 媒体 应 用 中 的 图 像 压 缩 需 要 较 高 
的 压缩 率 ， 因 而 通常 采用 有 损 压 缩 方法 。 在 有 损 压 缩 中 ,被 压缩 的 图 像 和 原 图 像 一 般 不 完全 相同 ， 
而 是 得 到 一 个 感觉 上 (perceptually) 与 原 图 像 的 接近 的 近似 结果 。 为 了 在 数值 上 描述 这 个 近似 结 
果 与 原 图 像 的 接近 程度 ， 需 要 采用 某 种 形式 的 失真 量度 。 


8.2 ”失真 量度 


失真 量度 (distortion measure) 是 一 个 说 明 在 某 种 失真 标准 下 一 个 近似 值 与 原 值 的 接近 程度 的 
数学 量 。 对 于 被 压缩 的 数据 ， 很 自然 想到 失真 就 是 原 数据 和 重 现 数据 在 数值 上 的 差异 。 然 而 ， 如 
果 被 压缩 的 数据 是 图 像 ， 那 么 这 样 的 度量 方法 可 能 无 法 得 到 理想 的 结果 。 

举 个 例子 ， 如 果 重 现 图 像 与 原 图 像 除了 向 右 移动 了 一 条 纵向 扫描 线 的 距离 外 完全 相同 ， 一 般 
很 难 分 辨 出 来 ， 因 而 可 以 断定 失真 很 小 。 然 而 由 于 重 现 图 像 每 个 像素 的 巨大 改变 ， 通 过 单纯 数值 
计算 得 到 的 结果 是 很 大 的 失真 .问题 的 关键 在 于 我 们 需要 的 是 一 个 感知 失真 (perceptual distortion) 
的 量度 ， 而 不 是 数值 方法 。 不 过 对 感知 失真 的 研究 已 经 超出 了 本 书 的 范围 。 

在 众多 已 经 定义 的 数值 化 失真 量度 中 ， 本 书 介绍 图 像 压 缩 中 最 常用 的 三 种 。 如 果 关 心 的 是 像 
素 的 平均 差异 ， 常 常 采 用 均 方差 (Mean Square Error, MSE) o 量度 ， 其 定义 如 下 : 





N 
0? = Yay) (8.1) 


n=l 


其 中 %， ya 入 分 别 为 输入 数据 序列 、 重 现 数据 序列 和 数据 序列 的 长 度 。 


如 果 关 心 的 是 相对 于 信号 的 误差 大 小 ， 则 可 以 采用 信 噪 比 (SNR 量度 。 如 第 6 章 中 所 述 ， 
信 噪 比 就 是 原 数据 序列 的 均 方 和 均 方 差 的 比值 ， 以 分 中 为 单位 ， 其 定义 如 下 : 


o? 
SNR = l0logio = (8.2) 
Oa 


其 中 cx 为 原 数 据 序列 的 均 方 ，03 为 均 方差。 


另 一 个 常用 的 失真 量度 是 峰值 信 骂 比 (Peak-Signal-to-Noise Ratio，PSNR)， 它 测量 的 是 相对 
于 信号 峰值 rea 的 误差 大 小 ， 其 定义 如 下 : 


2 
PSNR = 101ogio =. (8.3) 
Gd 
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8.3 ”比率 失真 理论 
有 损 压 缩 中 永恒 的 问题 就 是 比率 和 失真 之 间 的 权衡 。 比 率 就 是 重 现 源 信号 所 需 的 平均 位 数 ， 
在 本 书 中 用 比率 失真 函数 RCD) 来 表示 比率 和 失真 之 间 的 权衡 。 
直观 地 说 , 对 一 个 给 定 的 源 和 给 定 的 失真 量度 ,如果 D 
为 失真 容忍 量 ， 在 能 保证 D 允许 的 失真 范围 内 ，R(D) 表 示 
源 数据 编码 的 最 低 比率 。 很 显然 ， 在 D 的 情况 下 ， 就 是 “ 
对 源 数据 进行 无 损 压缩 。 比 率 失真 函数 可 以 描述 对 编码 算 
法 性 能 的 基本 限制 ， 因 而 可 用 来 评价 不 同 算法 的 性 能 。 
图 8-1 所 示 为 一 个 典型 的 比率 失真 函数 。 从 中 可 以 看 出 ， 
D=O 也 就 是 没有 缺损 时 的 最 小 比率 正 是 源 数据 的 灶 ; 而 在 比 
率 R(D)=0 时 失真 达到 最 大 值 ， 这 时 完全 没有 进行 编码 。 
对 于 一 个 给 定 源 , 要 找到 的 一 个 闭合 的 解析 式 表 示 比 率 


R(D} t 





失真 函数 ， 即 使 可 能 的 话 ， 也 是 非常 难 的 。GyorgyfH 给 出 0 ne 
了 不 同 源 的 比率 失真 函数 的 解析 表达 式 。 对 于 那些 不 易 得 
到 解析 解 的 源 ， 其 率 失 真 函 数 可 以 采用 Arimoto[21 和 图 8-1 典型 率 失真 函数 
Blahut[3] 给 出 的 算法 得 到 数值 解 。 

8.4 量化 


对 于 任何 有 损 方法 ， 量 化 都 是 其 核心 。 如 果 没 有 量化 ， 只 会 丢失 很 少 的 信息 。 下 面 将 在 6.3.2 
节 的 基础 上 更 详细 地 讨论 量化 。 

我 们 所 要 压缩 的 源 可 能 包含 大 量 的 不 同 的 输出 值 《如果 是 模拟 信号 ， 值 的 数量 甚至 会 是 无 穷 
多 )。 为 了 有 效 地 表示 源 数 据 输 出 ， 必 须 通过 量化 把 不 同 的 值 的 数量 大 大 减 小 。 

每 种 算法 〈 即 每 个 量化 器 ) 都 可 以 由 编码 器 端的 输入 范围 划分 和 解码 器 端的 输出 值 域 唯一 确 
定 。 量化 器 的 输入 值 和 输出 值 可 以 是 标量 也 可 以 是 向 量 , 这 样 就 有 了 标量 量化 器 (scalar quantizer) 


MAE HLS (vector quantizer) 之 分 。 本 节 将 分 析 均 匀 标 量 量 化 器 和 非 均匀 标量 量化 器 的 设计 ， 
并 且 简 要 介绍 矢量 量化 〈Vector Quantization, VQ) 的 知识 。 


8.4.1 均匀 标量 量化 

均匀 标量 量化 器 将 输入 值 域 划分 成 等 距 的 区 间 ， 不 过 有 时 可 能 需要 除去 两 边 最 外 部 的 区 间 。 
区 间 的 端点 称 为 量化 器 的 判定 边界 〈decision boundaries)。 每 个 区 间 对 应 的 输出 值 (或 者 重 现 值 ) 
取 该 区 间 的 中 点 值 ， 区 间 的 长 度 称 作 步 长 (step size)， 记 为 A。 均匀 标量 量化 器 可 以 分 为 两 种 : 
中 高 型 (midrise) 和 中 宽 型 〈midtread)。 在 中 宽 型 量化 器 中 ，0 可 以 作为 一 个 输出 值 ， 而 中 高 型 


量化 器 有 一 个 包含 零 的 区 间 〈 见 图 8-2)。 中 高 型 量化 器 用 于 输出 级 数 为 偶数 的 情形 ， 中 宽 型 量化 
器 则 用 于 输出 级 数 为 奇数 的 情形 。 


当 源 数据 以 很 小 的 正 数 和 负数 之 间 的 波动 代表 零 值 时 ， 中 宽 型 量化 器 就 很 有 用 了 。 在 这 种 情 
况 下 ， 采 用 中 宽 型 量化 器 就 可 以 精确 稳定 地 表示 零 值 。 在 遇 到 A=1 的 特殊 情况 时 ， 量 化 器 的 输出 
值 可 以 由 如 下 公式 计算 : 

Qimiarise (x) =[ x |-0.5 (8.4) 
Onidtread (x) =| x+0.5 | (8.5) 


一 个 好 的 均匀 量化 器 的 作用 是 使 一 个 给 定 源 输入 在 要 求 的 输出 值 数目 下 的 失真 最 小 。 这 可 以 
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通过 调节 步 长 A 与 输入 数据 相 匹配 来 实现 。 





图 8-2 均匀 标量 量化 器 

考察 一 个 M 级 量化 器 的 性 能 。 判 定 边界 集合 为 B= {bo,b,…,bx }， 输 出 值 集合 为 Y={y4,y2， 

ya} 。 假 设 输入 均匀 分 布 于 区 间 -Xm ,Xmox ] 上 ， 则 量化 器 的 比率 为 
R=[log2 M | (8.6) 

R 就 是 对 M 个 值 进行 编码 所 需要 的 位 数 ， 具 体 到 这 个 例子 就 是 M 个 输出 值 级 别 。 

由 于 输入 值 的 范围 是 从 -Xu 到 Xun ， 因 此 步 长 A 可 由 下 式 得 出 
2X max 
M 
对 有 界限 的 输入 ， 量 化 器 引起 的 量化 误差 称 作 粒 度 失真 (granular distortion)。 如 果 量 化 器 替代 整 
个 范围 内 的 值 ， 从 最 大 值 到 oo， 对 负 值 也 同样 如 此 ， 这 时 的 失真 称 为 过 载 (overload) 失真。 

为 了 全 面 了 解 粒度 失真 ， 我 们 注意 到 中 高 型 量化 器 的 判别 边界 刀 为 [Gi 一 DA,iA] (i=1… 
M /2 )， 这 里 只 考虑 数据 X 为 正 值 的 情况 〈X 为 负 值 的 情况 对 应 另 一 半 判 定 边界 )。 输 出 值 y; 为 
对 应 区 间 的 中 点 这 -A/12G =1…,M /12) ， 这 里 仍然 只 考虑 数据 为 正 值 的 情况 。 这 样 总 失真 就 是 数 
据 为 正 值 时 失真 总 和 的 两 倍 ， 如 下 式 所 示 : 


A 
Dern = E = = a) ce (8.8) 


式 中 将 结果 除 以 X 的 范围 以 进行 归 一 化 处 理 。 
由 于 重 现 值 y; 为 每 个 区 间 的 中 点 ， 所 以 量化 误差 必然 落 


在 区 间 | - A 全 | 内 。 图 8-3 为 一 个 均匀 分 布 源 的 量化 误差 图 。 


在 这 种 情况 下 ， 量 化 误差 也 是 均匀 分 布 的 。 因 此 其 均 方 差 与 
由 误差 值 在 | -全 | 内 的 区 间 [0, A] 计算 出 来 的 量化 误差 的 


方差 03 是 相同 的 。 在 点 x 处 的 误差 值 为 e(x)=x-A/2, 所 以 
误差 的 方差 如 下 ; 图 8-3 ”一 个 均匀 分 布 源 的 量化 误差 


A= (8.7) 
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o}= L | Sela) _ 囊 2dx 


2 
-1 [全 oj (8.9) 


类 似 地 可 以 得 出 信号 的 方差 为 0? = (2X ww)2112 ， 这 样 如 果 量 化 器 是 nn 位 的 ，M = 2 ， 那 么 从 式 
(8.2) 可 以 得 到 


o? 
SQNR = 10logio 图 











2 
-10a C 
= 10logi, (2X mx)? 12 
12 2X max 2 
Cae) 
=10logio M? = 20nlogio 2 (8.10) 
= 6.02n(dB) (8.11) 


因此 我 们 重新 推导 出 了 式 (6.3)， 这 个 公式 在 6.1 节 中 的 推导 是 简化 的 。 从 式 (8.11) 可 以 得 到 一 
个 重要 的 结论 : 量化 器 每 增加 1 位 信号 ， 量 化 噪声 比 就 增加 6.02dB。 对 DD 更 精确 的 估计 必须 采用 
更 精确 的 误差 的 概率 分 布 的 模型 。 


8.4.2 ” 非 均 匀 标 量 量化 

如 果 输 入 源 不 是 均匀 分 布 的 ， 均 匀 量 化 器 就 可 能 失去 作用 。 在 源 密集 分 布 的 区 域 增加 判定 级 
数量 可 以 有 效 地 降低 细 粒 失真 。 另外 , 还 可 以 扩大 源 稀疏 分 布 的 区 域 而 不 必 增 加 总 的 判定 级 数量 。 
这 样 的 非 均匀 量化 器 (nonuniform quantizer) 就 有 非 均匀 定义 的 判定 边界 。 

非 均 勾 量化 有 两 种 常用 的 方法 : Lloyd-Max 量化 器 和 压缩 扩展 量化 器 ， 这 两 种 方法 在 第 6 章 
中 都 有 介绍 。 

1. Lloyd-Max 量化 器 * 

对 均匀 量化 器 来 说 ， 总 失真 就 等 于 粒度 失真 ， 如 式 (8.8) 所 示 。 如 果 源 不 是 均匀 分 布 的 ， 就 
DAG BRRE DA OED ABR) fx(x)。 现 在 我 们 需要 同时 求解 以 修正 判定 边界 bi MER 
fy; 。 为 此 将 变量 b 和 y, 插 入 总 失真 量度 


Mob, 1 
Dene =È fy 0-9 — fx ee (8.12) 
J> max 


接 下 来 设 式 (8.12) 的 导数 为 零 以 使 总 失真 最 小 ， 对 y 求 导 就 得 到 重 现 信和 集合 
f; frad 


yj 三 b; 
|, fxd 





(8.13) 
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这 就 意味 着 最 优 的 重 现 值 就 是 x 区 间 的 加 权 中 心 。 
对 bj 求 导 并 令 其 等 于 零 可 以 得 出 : 


b, = Yj t yj 
2 
这 样 得 到 的 判定 边界 bj; 是 两 个 相 邻 重 现 值 的 中 点 。 
通过 烛 代 法 同时 求解 这 两 个 方程 ， 其 结果 就 是 Lloyd-Max 量化 器 。 


算法 8-1 Lloyd-Max 量化 器 


(8.14) 


BEGIN 
Choose initial level set yo 
i=0 
Repeat 
Compute b; using Equation 8.14 
i= i+1 
Compute y; using Equation 8.13 
Until |y- yii] < € 
END 


从 最 优 重 现 级 别 的 初始 假设 开始 ， 上 述 算 法 由 当前 重 现 级 别 的 估计 值 迭 代 估 算出 最 优 边界 ， 
然后 采用 刚刚 计算 出 的 边界 信息 更 新 当前 重 现 级 别 的 估计 值 。 这 个 过 程 重复 进行 ， 直 到 重 现 级 别 
收敛 为 止 。 该 算法 实际 的 例子 参见 练习 3。 

2. 压缩 扩展 量化 器 

在 压缩 扩展 量化 中 ， 输 入 通过 一 个 压缩 函数 G 映射 后 由 一 个 均匀 量化 器 进行 量化 。 经 过 变换 
后 再 用 扩展 函数 G7 将 量化 后 的 值 映射 回去 。 图 8-4 所 示 为 压缩 扩展 过 程 的 示意 图 ， 其 中 六 是 和 
的 量化 值 。 对 于 有 上 界 Xau 的 输入 源 ， 任 何 非 均 匀 量 化 器 都 可 以 由 压缩 扩展 量化 器 来 表示 。 常 用 
的 两 个 压缩 扩展 器 〈compander) 是 h 律 压缩 扩展 器 和 A 律 压缩 扩展 器 (参见 6.1 节 )。 


x Æ 均匀 量化 器 A x 


图 8-4 压缩 扩展 量化 











*8.4.3 矢量 量化 


香农 关于 信息 理论 的 著作 中 最 基本 的 思想 ， 就 是 任何 压缩 系统 对 矢量 或 成 组 样本 进行 操作 的 
效果 要 比 其 对 单独 的 信号 或 样本 进行 操作 的 效果 好 。 将 一 系列 连续 的 样本 连接 成 一 个 向 量 ， 这 样 
就 可 以 构造 输入 样本 向 量 。 例 如 ， 输 入 向 量 可 以 是 一 次 讲话 的 片段 ， 一 幅 图 片 中 一 组 连续 的 像素 
或 者 任何 格式 的 一 块 数据 。 

REFE (VQ) 的 思想 和 标量 量化 的 思想 类 似 ， 只 不 过 将 其 扩展 到 了 多 个 维度 。 在 标量 量化 中 ， 用 
一 个 重 现 值 来 表示 一 维 空间 的 一 段 区 间 ， 而 在 矢量 量化 中 用 一 个 包含 个 分 量 的 码 向 量 Code vector) 
来 表示 n 维 空间 某 个 区 域内 的 向 量 。 这 些 码 向 量 的 集合 构成 了 向 量 量化 器 中 的 码 本 (codebook). 

与 一 维 情形 不 同 ， 码 向 量 没有 固定 的 排列 顺序 ， 因 而 需要 一 个 指针 集 来 对 码 本 进行 索引 。 
图 8-5 给 出 了 向 量 量化 的 基本 步骤 。 在 图 中 ， 编 码 器 找 出 与 输入 向 量 最 接近 的 码 向 量 后 输出 对 应 
的 指针 。 在 解码 器 端 用 的 是 完全 相同 的 码 本 。 当 接收 到 输入 向 量 的 编码 指针 后 就 可 以 通过 简单 的 
表 查 询 来 确定 重 现 向 量 。 
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图 8-5 向 量 量 化 的 基本 过 程 


得 到 合适 的 码 本 和 在 编码 器 端 搜索 最 接近 的 码 向 量 这 两 项 工作 需要 相当 多 的 计算 资源 。 不 过 
解码 器 可 以 很 快 完成 ， 因 为 完成 重 现 只 需 一 个 固定 时 间 的 操作 。 由 于 有 这 样 的 特性 ，VQ 非常 适 
合 在 那些 编码 器 端 有 大 量 资源 而 解码 器 端 只 有 有 限 资源 , 并 且 需 要 很 短 操作 时 间 的 系统 上 使 用 。 

大 多 数 多 媒体 的 应 用 都 采用 这 种 类 型 。 


8.5 ”变换 编码 


从 信息 理论 的 基本 原理 可 知 ， 矢 量 编 码 比 标量 编码 效率 更 高 (参见 7.4.2 节 )。 为 了 实现 这 个 
目的 ， 我 们 需要 将 源 输入 中 的 连续 样本 块 聚合 成 矢量 。 ， 

RX fan ay AERAR. 不论 输入 数据 是 一 张 图 片 、 一 段 音乐 还 是 一 段 音频 或 视频 
剪辑 甚至 是 一 段 文 本 ， 相 邻 样 本 x 之 间 都 可 能 有 密切 的 内 在 相关 性 。 变 换 编码 的 基本 原理 是 ， 如 
果 了 是 对 输入 向 量 忆 进行 线性 变换 了 的 结果 , 线性 变换 了 使 得 了 的 元 素 间 的 相关 性 比 式 中 元 素 的 
相关 性 更 弱 ， 那 么 对 了 的 编码 效率 就 比 对 和 编码 的 效率 高 。 

例如 ， 如 果 一 张 RGB 图 片 的 大 部 分 信息 都 包含 在 一 条 主轴 线 上 ， 旋 转 后 使 得 轴线 方向 是 第 
一 个 元 素 ， 这 样 亮 度 就 可 以 采取 与 颜色 信息 不 同 的 压缩 ， 这 样 做 能 够 更 接近 人 眼 的 亮度 信道 。 

对 于 大 于 三 维 的 情况 ， 如 果 大 部 分 信息 能 够 用 变换 后 的 向 量 中 的 前 几 个 分 量 精确 地 描述 ， 那 
么 对 剩余 的 分 量 可 以 只 进行 粗 粒 度 的 量化 甚至 将 其 设 为 零 ， 而 只 有 很 小 的 信号 失真 。 非 相关 性 越 
大 ， 即 某 一 维 对 其 他 维 的 影响 越 小 〈 正 交 轴 越 多 )， 就 越 有 可 能 对 存储 信息 较 少 的 轴 作 不 同 的 处 
理 ， 同 时 对 量化 后 或 截 距 变 换 后 信号 重 现 精确 性 的 影响 很 小 。 

一 般 而 言 ， 变 换 了 不 对 数据 进行 压缩 ， 压 缩 是 由 对 了 的 分 量 的 量化 和 处 理 完成 的 。 本 节 将 讨 
论 解除 输入 信息 相关 性 的 工具 : 离散 余弦 变换 (DCT), 另外 还 将 分 析 Karhunen-Loave 变换 (KLT)， 
这 是 一 种 解除 输入 于 的 相关 性 的 最 优 方法 。 


8.5.1 离散 余弦 变换 


离散 余弦 变换 (DCT) 是 一 种 广泛 应 用 的 变换 编码 方法 ， 它 能 够 以 数据 无 关 的 方式 解除 输入 
信号 之 间 的 相关 性 。 因 此 ， 它 应 用 得 较 多 。 下 面 我 们 将 分 析 DCT 的 定义 并 且 讨 论 它 的 一 些 特性 ， 
特别 是 DCT 与 常见 的 离散 传 里 时 变换 (DFT) 的 关系 。 
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1、DCT 的 定义 

以 二 维 DCT 为 例 ， 设 一 个 有 两 个 整数 变量 i 和 /的 函数 f(i, 7)〔( 图 片 中 的 一 块 )。 二 维 DCT 将 
其 变换 成 一 个 新 的 函数 F(u,v) ， 其 中 整数 u 和 vw 的 取 值 范围 与 i 和 j 相同 , 该 变换 的 一 般 定义 如 下 : 
2cw)co) S'S + Dut oo it Dvr 

aw aeos ce ON 


HHiu=0,1,-, M-1; j,v=0,1--,N-1, W% Cu) M Co) h TFA H: 


F(u,v)= fGD (8.15) |207 


点 
c(é)= $=0 (8.16) 
K 其 他 


在 JPEG 图 像 压 缩 标准 〈 参 见 第 9 章 ) 中 ， 一 个 图 像 块 的 维度 定义 为 M=N=8。 因 此 ， 在 这 种 
情况 下 ， 二 维 DCT 及 其 逆 变 换 (IDCT) 的 定义 如 下 : 

。 二 维 离散 余弦 变换 (2D DCT) 

F(u,v)= CWC SY cos edm, os Ci + Dv 
4 名 和 名 16 

其 中 i,j,uv=0,1…,7 ， 常 数 C(u) R CO) A (8.16) 得 出 。 

。 二 维 逆 离 散 余弦 变换 (2D IDCT) 

2D IDCT 和 2D DCT 几乎 完全 相同 ， 只 是 将 fli, jM Fu, v) 颠倒 一 下 ， 另 外 Cu) 和 Cy) 出 
MELS EM: 


TTT fij) (8.17) 








f= FY LWW, s Bi Di op 21+ Dm 


F(u,v) (8.18) 
u=0 v=0 16 


Hp i, j,ujv=0,1,---,7 « 


二 维 变换 适用 于 二 维 信号 , 如 数字 图 像 等 .如 下 所 示 , —4t DCT 和 IDCT 和 二 维 DCT 和 IDCT 
类 似 。 
。 一 维 离散 余弦 变换 (1D DCT) 


7 : 
Fu) =< y cos PHD pi) (8.19) 
24 16 
Hpi =0,1, 7u =0,1, 7. 
。 一 维 逆 离 散 余 弦 变 换 (1D IDCT) 
f= > oos Citim 


u=0 


—_—— F(u) (8.20) 


Hpi=01,--,73u=0,1,--,7 
2. —# DCT 
下 面 分 析 一 维 信号 的 离散 余弦 变换 ， 这 里 介绍 的 大 部 分 概念 都 可 以 轻松 应 用 到 二 维 DCT。 208 
有 固定 幅 值 的 电信 号 称 为 直流 (Direct Current, DC) 信和 号， 常见 的 例子 有 电池 带 有 1.5V 或 
者 9V 的 直流 电 。 幅 值 以 某 种 频率 周期 性 变化 的 电信 和 号 称 为 交流 (Alternating Current, AC) 信号 。 
例如 ， 家 用 电源 是 60Hz、110YV 的 正弦 波形 交流 电 【〈 在 其 他 许多 国家 是 SO0Hz、220V )。 
然而 ， 大 多 数 实际 的 信号 却 更 加 复杂 。 语 言 信 号 或 数字 图 像 中 某 一 行 的 灰 度 亮度 就 是 这 种 复 
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杂 的 一 维 信和 号。 不 过 , 任何 信号 都 可 以 表示 多 个 为 不 同 振幅 和 频率 的 正弦 波 或 余弦 波 信和 号 的 又 加 ， 
这 一 过 程 就 叫 作 傅 里 叶 分 析 。 电 气 工 程 中 的 DC 和 AC 等 名 词 被 引用 过 来 描述 信号 中 的 分 量 ， 一 
个 信和 号 通常 由 一 个 DC 分 量 和 多 个 AC 分 量 组 成 。 

如 果 采 用 的 是 余弦 函数 ， 那 么 确定 信号 DC 分 量 和 AC 分 量 的 振幅 的 过 程 就 称 作 余 弦 变 换 
(Cosine Transform)。 如 果 指 数 为 整数 ， 就 是 离散 余弦 变换 。 当 x=0 时 ， 式 (8.19) 得 出 的 是 DC 
分 量 的 系数 ， 当 w=1，2，…，7 时 ， 依 次 得 到 各 个 AC 分 量 的 系数 。 

A (8.20) 所 示 为 北 离 散 余弦 变换 ， 它 使 用 DC、AC 分 量 的 系数 和 余弦 函数 来 重 现 〈 重 组 ) 
函数 f(i) ， 由 于 DCT 和 DCT 的 计算 过 程 中 会 产生 一 些 信号 损耗 ， 这 时 的 f(i) 表示 为 FD 。 

简单 地 说 ，DCT 的 作用 就 是 将 原 信号 分 解 成 DC 分 量 和 AC 分 量 ，IDCT 则 重 现 〈 重 组 ) 信 
号 。 DCT 和 IDCT 都 使 用 相同 的 余弦 函数 集合 ， 这 些 余弦 函数 称 作 基 函数 (basis function). 图 8-6 
所 示 为 一 维 DCT Eu = 0,1…,7 时 的 八 个 基 函 数 。 

















































































































第 0 个 基 函 数 (w=0) 第 1 个 基 函 数 〈z=1) 
1.0 1.0 
EU UO diet] 
-0.5 -0.5 | 
-1.0 -1.0 
0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 
i i 
第 2 个 基 函 数 (w=2) 第 3 TERE 〈x=3) 
1.0 1.0 
0.5 | | 0.5 | | 
0 g 0 [] a 
-1.0 -1.0 
0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 
i i 
第 4 个 菇 函数 《w=4) 第 $ PERM (wu=5) 
1.0 0 
0.5 
0, 00 Qo a l 
o 
as) [| 0 fesi 1 i 
-1.0 -1.0 
0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 
i i 
第 6 个 基 函 数 (w=6) 第 7 TERM 〈x=7) 
1.0 1.0 
05 | | 05 | 
0 g g o 口 0 | 口 | 口 
-05 | 05 0 | | 
-1.0 -1.0 
0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 


图 8-6 一 维 DCT HHRMA 


DCT 提供 了 一 种 新 的 在 频 域 (frequency domain) 上 处 理 和 分 析 信号 方法 ， 我 们 已 经 能 够 分 
析 一 个 8x8 像素 组 成 的 图 像 块 。 但 是 我 们 下 面 要 考虑 时 间 相 关 的 信号 而 不 是 空间 相关 的 信号 〈 因 
为 时 间 信 号 的 分 析 正 是 这 种 方法 的 起 源 )。 
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设 f(i) 表示 一 个 随时 间 i 变化 的 信号 (这 里 时 间 没 有 按 惯例 用 ! 来 表示 )， 一 维 DCT 将 时 域 
(time domain) 上 的 函数 S/O 变换 为 频 域 上 的 函数 FF(u) 。 Fu) 的 系数 称 为 频率 响应 《frequency 
response)， 由 之 还 可 以 得 到 (@ 的 频谱 图 。 

下 面 用 几 个 例子 来 说 明 频 率 响应 。 


例 8-1 
图 8-7a 左边 部 分 所 示 为 一 个 幅 值 为 100 的 DC 信号 ， 即 i(i) = 100 。 由 于 我 们 分 析 的 是 离散 
余弦 变换 ， 因 此 输入 信号 是 离散 的 ， 其 定义 域 为 [0，7]。 














信号 f(D) 不 变 DCT 输出 Fi(w) 
200 400 
150 300 
100 200 
0 0 
0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 
i u 
a) DC 信号 AO 
00 DCT 输出 Fau) 
心 右 一 个 
100 变化 的 信号 f(D)， 它 有 一 个 AC 分 量 300 
50 
0 i 0 upo 
~50 U | U 100 
~100 0 
2 3 4 5 6 7 0 1 2 3 4 5 6 7 
t u 
bd AC 信号 hÀ 
DCT 输出 F(u) 
400 
200 信号 AOAO AD 


-SSS 
[一 一 一 
een 
38 


i 100 
































0 1 2 3 4 5 6 7 0 0 1 2 3 4 5 6 7 
i u 
c) 户 D=D+ 户 (人 
o 任意 信号 7 200 DCT 输出 F(u) 

50 100 

0 (m 0 | 日 0 J 口 U U 一 
-50 1 U -100 
-100 ~200 

2 3 4 5 6 7 0 1 2 3 4 5 6 7 


d 任意 信号 /GD 
图 8-7 一 维 离 散 余弦 变换 的 例子 


当 w=0 时 , 不 论 i 取 什么 值 ， 式 (8.19) 中 所 有 的 余弦 项 都 变 成 cos0 ， 也 就 是 1， 这 时 C(0) = 
V2/12 ， 石 (0) 由 下 式 得 出 ; 
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五 (0) = L2 -(1-100+1-100+1-100+1-100 


a “10041. 100 +1-100+1-100) 
= 283 


“4u=1 If, F(u) 如 下 所 示 ， 因为 cs 下 = -cos 2T, cos 2E = cos 15 * +; HCM=1, MUA 


五 (= 一 5 (cos rene seme meng 0 


16 16 1 
+0082" -100-+cos I. 100+ cos 2E. 100 + cos — 工 .100 
16 16 16 z 


=0 


“| AR, RDA RQ) RO= A0. DCS fil KM DCT HR F(u) 如 图 8-7a 
21| 右边 部 分 所 示 ， 变 换 结果 FRE DC 分 量 〈 即 第 一 个 分 量 ) 不 为 零 。 


例 8-2 
图 8-7b 左边 部 分 所 示 是 一 个 离散 的 余弦 信号 户 (D 。 它 恰好 与 第 二 个 余弦 基 函 数 有 相同 的 频 


率 和 相位 ， 其 幅 值 为 100。 


当 zx0 时 ， 式 〈8.19) 中 所 有 的 余弦 项 都 为 1。 因为 cos = -cos “cos = cos $, 所 
以 有 
F,(0) = 2-1. 100cos— T 4. 100cos 2 +100cos 2" +100cos_™ 
2:2 8 8 8 8 
+100cos EE + 1000s +100cos "+ 1000s | 
=0 
为 了 计算 F(u) ， 首 先 注意 到 当 w=2 时 ， 由 于 cos = sin =, 故 有 
co 8S2 开 +cos2 3T = cos? 工 +sin2 工 -1 
8 8 8 
同样 
COS 2 了 +cos2 T =] 
8 8 
COS 29m OF pcos? HT = 1 
8 8 
cos? 13% 4 cos? 15% -1 
8 8 
可 以 得 到 


RO=. cos £. .COS 一 T p cos ot. cos + cos 2%. cosa 
8 8 8 8 8 8 


TR TT on on lix 117 
+ cos — : cos — + cos 一 -CO0S — + cos 一 一 :08 一 一 
8 8 8 8 


8 
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teos 12%. cos 2E + cog de® -cos 15% -100 
8 8 8 8 


=Ž-(1+1+1+1):100=200 


SHES x BARI, RABE AO = F8) = P4) =-= (7) =0. 


例 8-3 
图 8-7 的 第 三 行 所 示 的 DCT 的 输入 信号 是 前 面 两 个 信号 的 又 加 信号 ， 也 就 是 (i) = (i) 
+fo(i), th Fu) 的 值 如 下 所 示 : 
F(0) = 283 
F;(2) = 200 
RBD = RGO) = F3(4) =-= F3(7) =0 
FDA ESRB Fu) = F (u)+ F(u) 。 


例 8-4 
图 8-7 的 第 四 行 所 示 是 一 个 任意 输入 (或 者 说 至 少 是 相对 复杂 ) 的 输入 信号 fd) 及 其 DCT 
输出 F(u): 
f@G=0.7): 85 -65 15 30 -56 35 90 60 
F(u)(u=0..7): 69 -49 74 11 16117 44 -5 


在 这 种 更 一 般 的 情形 下 ， 所 有 的 DCT AM Fu 都 非 零 ， 有 些 是 负 值 。 


根据 以 上 的 例子 ， 可 以 总 结 出 DCT 的 特性 如 下 : 
1) DCT 产生 和 空间 信和 号 f(i) 对 应 的 频谱 F(u) 。 
具体 地 讲 ，DCT 系数 FO 就 是 信号 (OW DC 分 量 ， FO) 等 于 信号 的 平均 值 乘 以 上 一 个 常 


数 (对 于 一 一 维 DCT 是 二 2g- 2V2, HF 维 DCT ELZ Ag 8 )。 在 图 8-7a H, DC 


信号 的 平均 相信 得 然 是 ， 100 F(0) = 2V2x100; 在 图 8-7b 中 , AC 信号 的 平均 由 人 为 0, 因而 FO 
也 为 0， 图 8-7c 中 AO 的 平均 幅 值 是 100， 同 样 F(O) =2V2x100 。 

另外 7 个 DCT 系数 反映 了 信号 f(i) 在 不 同 频率 上 的 不 同 变化 〈 即 AC) 分量。 如 果 用 ACI 
表示 F(1), AC2 表示 F(2), ACT 表示 F(7), WA ACI 就 是 第 一 个 AC 分 量 ， 其 余弦 函数 在 
[0，7] 只 有 半 个 周期 ，AC2 有 一 个 周期 ，AC3 有 一 个 半 周 期 ，…AC7 有 三 个 半 周 期 。 当 然 ， 所 有 
这 些 都 对 应 于 以 完全 相同 方式 排列 的 余弦 基 函 数 ， 也 就 是 说 ， 第 二 个 基 函 数 对 应 于 AC1， 第 三 个 
基 函 数 对 应 于 AC2， 依 此 类 推 。 在 图 8-7b 的 例子 中 ， 由 于 信号 £0) 与 第 三 个 基 函 数 有 完全 相同 
的 余 纺 波形， 且 频 率 和 相位 相等 ， 因 此 它们 将 同时 达到 最 大 值 ( 正 》 和 最 小 值 ( 负 )。 结 果 ， 它 
们 的 乘积 永远 是 正 的 ， 它 们 作用 的 结果 PORE AC2) 是 很 大 的 。 而 由 于 AM 正好 与 其 他 基 
函数 正 交 ， 因 此 其 他 所 有 的 AC 系数 都 为 零 。( 关 于 正 交 性 将 在 本 章 后 面 讨 论 。) 

应 该 指出 的 是 ，DCT 系数 很 容易 取 负 值 。 对 于 DC 信号 ， 当 fO 的 平均 值 小 于 零 时 ，DCT 
系数 就 会 取 负 值 。( 对 于 一 张 图 片 ， 这 种 情形 不 会 发 生 ， 因 而 其 DC 分 量 是 非 负 的 。) 对 于 ACHE 
号 ， 有 一 种 特殊 情况 ， 如 果 f(i) 和 某 一 基 函 数 的 频率 相同 ， 但 却 相差 半 个 周期 时 ， 系 数 为 负 ， 而 
且 绝对 值 可 能 还 很 大 。 一 般 而 言 , 信号 更 像 是 图 8-7d 中 所 示 那 样 ，f(i) 产生 许多 非 零 的 AC 分 量 ， 


212 


213 
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其 中 ACT 后 面 的 表示 的 是 高 频 分 量 。 只 有 当 信和 号 在 [0，7] 这 个 小 区 域内 有 迅速 的 变化 时 ， 其 高 频 
分 量 才 会 有 较 大 的 《〈 正 的 或 负 的 ) 响应 。 

举 个 例子 ， 如 果 ACT 是 个 很 大 的 正 数 ， 这 就 说 明 信 和 号 f(i) 有 一 个 与 第 八 个 基 函 数 〈 三 个 半 
周期 ) 同步 变化 的 分 量 。 根 据 奈奈 斯 特定 理 ， 这 是 采用 8 个 离散 值 取样 而 不 发 生 严 重 失 真 和 信和 号 
登 加 的 最 高 信号 频率 。 

2) DCT 是 一 种 线性 变换 〈linear transform). 

通常 ， 如 果 一 个 变换 7 满足 下 面 的 性 质 ， 它 就 是 线性 变换 

7 (ap+ Bq) =a7 (p)+ B7(q) (8.21) 

其 中 a 和 6 是 常数 ，p 和 4g 是 任意 函数 、 变 量 或 者 常数 。 

由 式 〈8.19) 的 定义 ， 可 以 很 容易 证 明 DCT 的 这 个 人 性质， 因为 DCT 中 只 使 用 了 简单 的 算术 
运算 。 

3， 一 维 逆 DCT 

下 面 给 出 图 8-7d 中 例子 的 道 DCT (IDCT) 来 结束 这 个 例子 。 前 面 得 到 FU) 如 下 : 


F(u)(u=0..7): 69 -49 74 11 16 117 44 -5 


式 (8.20) 给 出 的 一 维 DCT 能 够 很 容易 地 以 一 个 8 次 迭代 的 循环 来 实现 ， 这 一 过 程 如 图 8-8 
所 示 。 

















第 0 次 迭代 后 (DC) 第 1 次 迭代 后 (DC+ACD 
100 100 
50 50 
oooooooaoaol ol- -s oo 0 U 
-50 -50 
-100 -100 
0 12 3 4 5 6 7 0 1 2 3 4 5 6 7 


第 2 次 迭代 后 (DC+AC1+AC2) 第 3 次 迭代 后 (DC+AC1I+AC24+AC3) 
100 


00 

50 | 50 
0 Do -= 0 U 0 0 a eo = 口 U 
-50 -50 
-100 -100 


0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 





第 4 次 迭代 后 (DC+AC1+:…+AC4) 00 第 5 次 迭代 后 (DC+AC1+…-+AC5) 
1 


























100 
50 50 | 
0 L > fn 口 一 m 0 | 0 一 D.. d 0 
-50 -50 g o 
-100 - 
o1 23 4 5 6 7 "00 17 3 1 
i i 
第 6 次 迭代 后 (DC+AC1+,..+AC6) 第 7 次 迭代 后 (DC+ACI1+.…+ACT7) 
100 
50 50 | | 
-50 | O -50 l 
- -100 
10 -1 23 3 4 3 2 3 4 5 6 7 


图 8-8 一 维 IDCT 的 一 个 例子 
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co, vt 


BRO: FO == --c0s0- F(0) = 1-69 = 24.3 

AK 1: jo- cos0- EN s EDE Fw 
= 24. 3+ (49). sn EI a 24.5-cos om 

az FO=?-cos0- ro cor FADE. pO)+ OO cog PDE, po 
~24.3-24.5.cos tT Dy om tD 


Bit WHER, FO 为 一 个 约 等 于 24.3 的 常量 , 这 是 SO 中 DC AMES. BRE, 
Fi) = 24.3-24.5-cos ET DE on ， 这 是 DC 分 量 和 第 一 个 AC 分 量 的 和 ， BIER, FO 就 是 


DC 和 ACI, AC2 的 和 ， “pede aH. 如 图 8-8 所 示 ，IDCT 的 求 乘积 之 和 过 程 最 终 重 现 〈 重 构 ) 了 
函数 f(i) ， 结 果 近 似 为 
f@G=0.7): 85 -65 15 30 -56 35 90 60 
由 上 面 的 过 程 可 知 ， 由 整数 的 初 值得 到 了 整数 的 结果 虽然 通过 中 间 运 算 的 浮 点 数 ， 信 号 还 是 四 
被 精确 地 还 原 ; 尽管 情况 不 会 总 是 这 样 ， 不 过 最 终结 果 却 总 是 闭合 的 。 as 
4. PER BH 


要 得 到 更 好 的 分 解 ， 其 基 函 数 应 当 是 正 交 的 〈orthogonal)， 这 样 其 中 的 宛 余 信息 最 少 。 
如 果 两 个 函数 Bp (i) AB) 满足 下 式 ， 它 们 就 是 正 交 的 。 


FB O By) =0, p#q (8.22) 
两 个 函数 B,(i) 和 Bu O 正 交 并 且 满 足下 式 ， 它 们 就 是 标准 正 交 (orthonormal) 的 。 
ZLBr(D B=1, p=4 (8.23) 


标准 正 交 人 性 是 我 们 希望 得 到 的 。 有 了 这 个 特性 ， 信 号 在 变换 过 程 中 就 不 会 被 放大 。 如 果 变 换 
和 其 逆 变 换 CAN RAL EM (forward transform) 和 反 向 变换 (backward transform)) 都 采 


用 相同 的 基 函 数 ， 那 么 得 到 的 信号 将 与 原 信号 完全 〈 大 致 ) 相同 。 


可 以 得 出 
S cos HDPE cop ADF) o, pang 
i=0 
GSC) (2i+1)- pm Cla) cereale _ 
| cos 2 cos 16 =], p=q 


由 此 可 见 ，DCT 中 的 余弦 基 函 数 确实 是 正 交 的 ， 取 合适 的 常数 C(p) 和 C(q) 还 可 以 使 它们 成 
为 标准 正 交 函数 。( 现 在 就 可 以 理解 DCT 和 IDCT 的 定义 中 的 常数 C(u) 和 Cv) 为 何 看 起 来 像 是 随 
意 取 的 值 了 。) 

回想 前 面 图 8-7b 中 的 A), FRAEZ, RERO (对 于 u2) 为 非 零 值 ， 而 其 他 
DCT 系数 都 为 零 。 对 某 些 信号 在 频 域 上 的 处 理 和 分 析 ， 这 一 点 是 很 必要 的 ， 因 为 这 样 就 可 以 精确 
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地 辨别 出 原 信号 的 频 域 分 量 。 

余弦 基 函 数 与 三 维 笛 卡 儿 空间 中 的 基 向 量 * J z (或 称 三 维 向 量 空间 ) 类 似 ， 这 些 向 量 
是 标准 正 交 的 ， 因 为 
- ¥=(1,0,0)-(0,1,0) =0 
-Z =(1,0,0)-(0,0,1) = 0 
-Z =(0,1,0)-(0,0,1) =0 
-¥ = (1,0,0)-(1,0,0) =1 
-5 =(1,0,0)-(1,0,0)=1 
-Z = (1,0,0): (1,0,0) =1 


NI < laki < badd ladi 


任意 点 P= (xn,yp,zp) 都 可 以 用 一 个 向 量 OP= (xn,yp,zp) 来 表示 , 其 中 O 为 原点 ， 该 向 量 可 
216| 被 分 解 为 xp -X+yp-V+Zp-Zo 

如 果 把 式 〈8.19) 中 求 乘积 之 和 的 运算 看 作 是 离散 余弦 基 函 数 〈 对 确定 的 w 与 信号 f(i) 的 
AR, WA DCT 与 笛 卡 儿 投影 之 间 的 相似 性 就 更 加 明显 了 。 也 就 是 说 ， 要 得 到 点 P 的 x 坐标 ， 
只 需 将 己 投 影 到 x 轴 上 。 从 数学 上 说 ， 这 相当 于 一 次 点 乘 运算 .OP =x,， 用 同样 的 方法 也 可 以 
得 到 yp Al zp 。 

现在 ， 与 图 8-7b 中 的 例子 进行 比较 ， 对 于 笛 卡 儿 空 间 中 的 点 已 = (0,5,0) ， 只 有 y 轴 上 的 投影 

=5， 在 x 轴 和 z 轴 上 的 投影 都 是 0。 

5.， 二 维基 函数 

对 二 维 DCT 函数 来 说 ,使 用 显示 为 8x8 图 像 的 基 。 如 图 8-9 所 示 ， 图 中 白色 表示 正 值 ， 黑 色 
表示 负 值 。 为 了 获得 DCT 系数 ， 只 需求 64 个 基 图 像 中 每 一 个 与 原 图 像 对 应 的 8x8 区 域 块 的 内 积 


即 可 。 这 里 我 们 考虑 的 是 空间 上 的 信号 , 而 并 非 时 间 上 的 信号 。 对 每 个 8x8 图 像 块 进行 如 上 操作 ， 
得 到 的 64 个 乘积 就 是 一 个 8x8 的 空间 频谱 图 像 F(u,v) 。 


CD 


a 


ta 


SOLE oo er 


mirin ii 





图 8-9 二 维 DCT 基 的 图 示 
6. 二 维 分 离 基 
考虑 到 计算 速度 ， 大 多 数 软件 的 应 用 中 都 使 用 固定 点 的 四 则 运算 来 计算 DCT 变换 。 正 如 能 
够 数学 上 推导 出 快速 传 里 叶 变换 一 样 ， 也 有 快速 DCT。 一 些 快 速 计 算 中 将 乘法 转化 为 移 位 和 加 法 
后 得 到 近似 的 系数 ， 此 外 ， 还 有 一 种 更 加 简单 的 方法 用 来 生成 二 维 DCT 的 系数 ， 这 种 方法 将 原 
问题 通过 因 式 分 解 转化 为 两 个 一 维 DCT 变换 。 


当 块 的 大 小 为 8 时 ， 二 维 DCT 可 以 被 分 解 成 顺序 的 两 步 一 维 DCT。 首 先 ， 对 每 一 列 进行 一 
[217] 维 DCT, 计算 出 一 个 中 间 函 数 G(i,v) ,这样 就 将 列 的 维度 转变 到 了 频 域 , 不 过 行 维度 还 没有 转变 : 
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ae 


Gi, w= CON cos SLE SGD (8.24) 


然后 再 次 计算 一 维 DCT， 这 次 将 行 维度 蔡 换 成 其 对 应 的 频 域 部 分 ， 
F(u,v) = LeS cos ray, v) (8.25) 
i=0 

因为 二 维 DCT 的 基 函 数 是 可 分 离 的 (i Aly 各 自 的 独立 函数 相 乘 )， 所 以 这 样 的 做 法 是 可 行 的 。 可 
以 看 到 ， 这 样 一 个 简单 的 转化 节约 了 很 多 计算 步骤 ， 所 需 的 迭代 次 数 从 8xg 变 为 了 8+8 。 

7. DCT 与 DFT 的 比较 

离散 余弦 变换 [4] 与 离散 傅 里 叶 变 换 (DFD 是 密切 相关 的 ， 在 信号 处 理 领域 ， 后 者 可 能 更 常 
用 一 些 。 由 于 DCT 相对 比较 简单 并 且 在 多 媒体 方面 的 应 用 更 加 广泛 ， 因 此 本 书 主要 介绍 了 DCT. 
然而 ， 我 们 不 应 当 完 全 忽略 DFT. 

一 个 连续 信号 的 连续 傅 里 时 变换 定义 如 下 : 


F (y= |” feat (8.26) 
应 用 欧 拉 公 式 ， 可 以 得 到 
er =cos(x) +isin(x) (8.27) 


可 见 ， 连 续 传 里 叶 变 换 由 无 限 个 正弦 项 和 余弦 项 的 和 组 成 。 而 计算 机 的 计算 是 离散 的 ， 要 将 
输入 信和 号 离散 化 ， 为 此 定义 操作 输入 信号 { 万 , 族 …, 方 } 的 8 个 样本 的 DFT 为 


2niox 


7 
= fre 8 (8.28) 
x=0 





将 正弦 项 和 余弦 项 分 开 写 ， 可 得 
es fe cos 2 Fès sn] (8.29) 
x=0 8 x=0 8 


即使 不 给 出 DCT 的 明确 定义 , 我 们 也 可 以 猜 到 DCT 可 能 是 只 包括 DFT 实数 部 分 的 变换 。 这 

样 构造 DCT， 使 得 DCT 可 以 只 包括 DFT 中 的 余弦 基 函 数 ， 因 为 只 需 产生 一 个 与 原 输入 信和 号 对 称 

的 信号 就 可 以 将 其 虚 部 抵消 掉 。 218 
因为 正弦 函数 是 奇 函 数 ， 所 以 当 信号 被 对 称 地 扩展 后 ， 正 弦 项 对 结果 的 影响 就 会 互相 抵消 。 

因此 ，8 个 输入 样本 的 DCT 相当 于 16 个 样本 的 DFT 和 其 对 称 样本 的 又 加 ， 如 图 8-10 所 示 。 


y 





mm A A A N 


x 
O 123 4 5 67 8 9 10 11 12 13 14 15 
图 8-10 ”斜坡 函数 的 对 称 扩展 
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经 过 对 称 扩 展 后 ，DCT 处 理 的 是 三 角 波 ， 而 DFT 则 处 理 重 复 的 斜坡 函数 。 由 于 DFT 不 得 不 
处 理 斜 坡 函 数 之 间 的 连接 造成 的 突变 ， 这 就 需要 引入 大 量 的 高 频 分 量 。 (更 多 关于 DCT 和 DFT 
的 讨论 与 比较 请 参考 [4].) 

表 8-1 给 出 的 是 计算 得 出 的 DCT 系数 和 DFT 系数 。 从 中 可 以 看 出 ， 比 起 DFT, DCT 的 前 几 
个 系数 包含 了 更 多 的 信号 信息 。 如 果 只 用 DCT 和 DFT 的 前 三 项 来 分 别 作为 原 斜坡 函数 的 近似 ， 
可 以 发 现 用 DCT 时 的 近似 更 加 接近 原 函 数 ， 两 者 的 比较 见 图 8-11。 


8-1 斜坡 函数 的 DCT 7 
系数 和 DFT 系数 











a) 三 项 DCT 的 近似 b) 三 项 DFT 的 近似 
图 8-11 斜坡 函数 的 近似 


y Om -OO 


*8.5.2 Karhunen-Loéve 变换 


Karhunen-Loeve 变换 (KLT) 是 一 种 可 逆 的 线性 变换 ， 它 应 用 了 向 量 表述 的 统计 学 性 质 。 
Karhunen-Loéve 变换 主要 的 特性 就 是 能 够 很 好 地 解除 输入 的 相关 性 , 为 此 , CE ( 减 去 平均 值 的 ) 
数据 附近 找 出 一 个 n 维 椭 球体 ， 该 椭 球 体 的 长 轴 方 向 就 是 数据 变化 较 大 的 方向 。 

想像 一 支 被 踩 扁 的 雪茄 的 样子 。 描 述 雪茄 的 数据 是 雪茄 各 点 在 三 维 空间 中 的 坐标 值 ， 其 长 轴 
由 一 个 统计 程序 找 出 来 ， 作 为 KLT 的 第 一 条 轴 。 第 二 条 重要 的 轴 是 通过 被 压 扁 的 雪茄 的 水 平 轴 ， 
它 垂 直 于 第 一 条 轴 。 第 三 条 轴 垂 直 于 前 两 条 轴 ， 是 竖 直 的 。KLT 进行 的 就 是 这 样 的 分 析 。 

为 了 理解 KLT 的 最 优 性 ， 考 察 输入 向 量 X 的 自 相关 和 矩阵 Rx ， 其 定义 如 下 : 


Ry = E[XX"] (8.30) 
Rr(D Rx(,2) -+ Rx(,k) 


_ Ry.) RxD > Rx(2,k-D) (8.31) 


Rx(k,1) Rx(k-1,) = Rx(l,D) 
其 中 Rx (1,s)= E[X:X;] 是 自 相关 函数 。 我 们 的 目的 是 找到 一 个 变换 T， 使 得 输出 了 的 各 个 分 量 都 
不 相关 。 也 就 是 说 ， 当 ts 时 ，E[YY;]=0。 因 此 , 了 的 自 相关 矩阵 的 形式 是 正 对 角 阵 。 


任何 自 相关 矩阵 都 是 对 称 和 非 负 定 义 的 和 矩阵， 因此 它 有 个 正 交 的 特征 向 量 w,w2,…,wx 和 
个 对 应 的 非 负 实 特征 值 丸 宕 入 > > A, 之 0。Karhunen-Lotve 变换 的 定义 如 下 : 


T =[uy,u2,---,ux]" (8.32) 
这 样 ，Y 的 自 相关 矩阵 就 变 为 
Ry = E[YY"| (8.33) 
= E[TXX"T] (8.34) 
=TRxT” (8.35) 
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1 0 - 0 
|9 2 0 (8.36) 
0 : 0 
0 0 aoe Àk 


显然 ， 上 面 了 的 自 相 关 秆 阵 就 是 所 期 望 的 矩阵 。 因 为 它 能 够 完全 解除 输入 的 相关 性 ， 因 此 KLT 
是 最 优 的 。 另外， 由 于 KLT 依赖 于 输入 向 量 自 相 关 算 阵 的 计算 ， 因 而 它 是 数据 相关 的 ， 对 每 个 数 
据 集 都 要 重新 进行 计算 。 

例 8-5 

为 了 说 明 KLT 的 运行 机 制 ， 以 四 个 三 维 输入 向 量 为 例 ， 它 们 是 =(4,4,5)，x2 = (3,2,5) ， 
x3 = (5,7,6) ，x4 =(6,7,7) 。 为 了 找到 所 需 的 变换 ， 首 先 必须 计算 出 输入 的 自 相关 矩阵。 四 个 输 
入 向 量 的 均值 为 : 








18 
my = 20 
23 
使 用 下 面 的 公式 可 以 计算 出 自 相 关 和 矩阵 : 
Ry s yin? -m,m! ` (8.37) 


i=l 
上 式 中 n 是 输入 向 量 的 数目 。 从 这 个 公式 可 以 得 到 : 
1.25 2.25 0.88 








Rx =|2.25 4.50 1.50 
0.88 1.50 0.69 221 
Ry WELD A, = 6.1963, A, =0.2147 ， 四 =0.0264 。 显 然 ， 其 中 第 一 个 分 量 是 最 重要 的 。 特 
征 值 对 应 的 特征 向 量 为 ， 
0.4385 0.4460 -0.7803 
ul =| 0.8471| uw, =| -0.4952 | 中 =| 0.1929 
se | mel 0.5949 











因此 ，KLT 可 以 由 下 面 的 矩阵 得 到 ， 


0.4385 0.8471 0.3003 
T =| 0.4460 -0.4952 0.7456 
-0.7803 0.1929 0.5949 


各 个 输入 向 量 减 去 平均 值 向 量 后 进行 KLT 变换 ， 得 到 结果 如 下 : 
-1.2916 -3.4242 

y= a y2 -| 0.2573 

—0.2490 0.1453 

1.9885 2.7273 
a y4 -| i 


0.1445 —0.0408 








J3 三 








222 
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由 于 了 的 各 行 是 正 交 向 量 ， 其 逆 变 换 就 是 其 转 置 : T” =T”。 通 过 逆 关 系 ， 由 变换 系数 可 以 
得 出 原 向 量 。 


x=T yim, (8.38) 


至 于 变换 系数 mw ， 前 面 几 个 分 量 的 幅 值 通常 都 比 其 余 的 分 量 大 得 多 。 一 般 来 说 ， 经 过 KLT 
变换 后 ， 变 换 系数 的 大 多 数 “ 能 量 ” 都 集中 到 了 前 面 几 个 分 量 里 ， 这 叫做 KLT 的 能 量 紧 束 特性 。 


对 于 一 个 有 nn 个 分 量 的 输入 向 量 x， 如 果 对 其 输出 向 量 y 进行 粗略 的 量化 ， 设 置 其 后 个 分 
量 的 值 为 零 ， 这 个 向 量 称 作 结 果 向 量 了 》，KILT 变换 能 够 使 得 原 向 量 与 其 重 现 值 之 间 均 方差 最 小 。 


8.6 ”小 波 编码 
8.6.1 简介 

将 输入 信和 号 分 解 成 若干 分 量 后， 我 们 便 能 够 针对 每 个 分 量 采 用 合适 的 编码 方法 ， 以 提高 压缩 
性 能 。 仍 以 一 个 和 时 间 相关 的 信号 fo) 为 例 〈 以 连续 函数 作为 基础 进行 讨论 是 最 好 的 )。 传 统 的 
信和 号 分 解 方法 是 傅 里 时 变换 ， 前 面 讨论 的 DCT 是 一 种 特殊 的 基于 余弦 的 变换 。 如 果 同 时 基于 正 
纺 和 余弦 进行 分 析 ， 可 以 将 结果 用 一 个 符号 所 w) 表 示 ， 这 个 函数 由 式 (8.26) 得 到 ， 它 的 值 是 复 
数 ， 频 率 @ 是 实数 。 进 行 这 样 的 分 解 后 ， 在 频 域 上 有 很 高 的 分 辨 率 。 然 而 由 于 正弦 曲线 理论 上 在 
时 间 上 是 无 限 的 ， 这 样 的 分 解 不 能 得 到 瞬时 〈temporal) 结果 。 

另 一 种 近年 来 常用 的 分 解 方 法 是 小 波 变换 (wavelet transform)。 它 采用 一 组 称 为 小 波 的 基 函 
数 来 表示 信和 号， 可 以 在 时 域 和 频 域 上 都 得 到 很 好 的 分 辨 率 。 

小 波 变换 有 两 种 类 型 : 连续 小 波 变 换 〈Continuous Wavelet Transform, CWT) MER DRE 
换 (Discrete Wavelet Transform, DWT). CWT 应 用 于 在 实数 域 上 平方 可 积 的 函数 f(x) ， 也 就 是 
J dx < oo， 在 数学 上 也 可 以 写作 fae LR). 

另 一 种 小 波 变 换 DWT 用 于 处 理 输入 信号 的 离散 采样 。DWT 和 其 他 的 离散 线性 变换 。( 如 
DFT 和 DCT) 类 似 ， 在 图 像 处 理 和 压缩 中 非常 有 用 。 

在 讨论 小 波 理论 之 前 ， 我 们 先 介绍 一 个 最 简单 的 小 波 变 换 的 例子 ， 以 便 让 读者 对 小 波 变换 有 
一 个 直观 的 印象 。 这 种 小 波 变换 叫 作 Haar 小 波 变 换 ， 它 能 得 出 一 个 实数 序列 的 平均 值 和 差 值 。 

序列 的 多 分 辩 率 分 析 是 指 重复 地 计算 出 每 一 步 的 序列 平均 值 和 差 值 ， 并 将 结果 记录 下 来 。 对 
于 图 像 而 言 ， 这 就 相当 于 产生 越 来 越 小 的 简化 图 像 ， 每 一 步 的 图 像 都 只 有 上 一 步 的 /4 大 小 ， 同 
时 还 记录 下 其 与 平均 值 的 差 值 。 将 全 尺寸 图 像 、1/4 图 像 、1/16 图 像 等 排列 起 来 ， 会 形成 一 个 金 
字 塔 ， 这 些 图 像 的 集合 与 图 像 之 间 的 差 值 就 构成 了 多 分 辨 率 分 析 。 


例 8-6 一 个 简单 的 小 波 变换 

小 波 变换 的 目的 是 为 了 更 好 地 进行 压缩 ， 将 输入 信号 分 解 为 易于 处 理 、 有 特殊 含义 或 者 可 被 
忽略 的 分 量 。 当 然 ， 变 换 后 的 分 量 必 须 能 够 近似 地 重 现 原 信 号 。 假 设 有 如 下 输入 序列 ， 

{xn } = {10,13,25, 26, 29, 21,7,15} (8.39) 

其 中 ，ie [0,…,7] 为 像素 编号 ，n 代表 当前 的 金字 塔 层级 。 对 于 这 个 序列 来 说 ， 在 顶层 n=3， 对 
n=2，1 和 0， 还 需 再 构造 三 个 数列 。 在 每 个 层级 上 ， 变 换 后 的 信和 号 数列 的 前 几 个 元 素 中 所 保留 的 
信息 较 少 。 在 金字 塔 的 层级 n=0 时 ， 其 第 一 个 元 素 是 数列 的 平均 值 ， 其 他 详细 信息 则 存储 在 剩余 
的 元 素 中 。 

定义 如 下 的 变换 ， 它 将 原 数列 替换 为 其 相 邻 两 个 元 素 的 平均 值 x,_1; 和 两 两 差 值 4 : 
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Xn-1,i = Ani tXna (8.40) 
2 
drii = Sea ai (8.41) [223 


由 于 所 取 的 平均 和 差 值 都 取 自 全 部 的 序列 中 下 标 为 偶数 的 连续 两 个 元 素 ， 所 以 集合 (xri) 和 
{dpi} 中 元 素 的 数目 都 正好 是 原 数列 中 元 素数 目的 一 半 。 将 数列 xn) M {dri h 连接 起 来 就 可 
以 得 到 一 个 与 原 数列 长 度 相同 的 新 数列 ， 结 果 如 下 : 

{Xni dn} = (11.5, 25.5, 25,11,-1.5,-0.5,4,—-4} (8.42) 


现在 的 层级 是 n-1= 2， 该 数列 与 输入 数列 有 相同 数目 的 元 素 ， 变 换 并 没有 增加 数据 量 。 因 为 上 
面 数 列 的 前 一 半 是 原 数 列 的 平均 值 ， 所 以 可 以 把 它 看 成 是 原 信号 的 粗略 近似 。 

该 数列 的 后 一 半 则 可 以 看 作 是 前 一 半 的 细 化 或 近似 误差 。 这 一 细 化 数列 中 大 多 数 的 数值 都 比 
原 数 列 的 小 得 多 ， 这 样 ， 大 部 分 的 能 量 就 被 有 效 地 集中 到 了 前 面 一 半数 列 中 。 因 此 ， 可 以 用 更 少 
的 位 数 来 存储 {dn.1.}。 

可 以 很 容易 地 证 明 ， 用 下 面 的 关系 式 可 以 从 变换 后 的 数列 重 现 原 数 列 。 


Xn,2i = Xn + Ini (8.43) 


Xn,2i+1 = Xai — dn-1i 


上 面 的 变换 就 是 离散 Haar 小 波 变 换 。 应 用 缩放 函数 和 小 波 函数 可 以 完成 求 平 均 和 取 差 的 操作 ， 
图 8-12 所 示 为 Haar 小 波 变换 中 的 这 两 个 函数 。 


2 2 


| | 








0 0 

-i -1b 

-2 -2 1 1 1 

-0.5 0 0.5 1 1.5 40.5 0 0.5 1 1.5 

a) 缩放 函数 b) RBI 
图 8-12 Haar 小波 变换 224 
将 同样 的 变换 用 于 (xru) ， 可 以 得 到 下 一 层级 的 近似 值 x,_2; 和 细 化 值 dn- : 
{Xn2is dn 2 dni} = {18.5,18,-7,7,—1.5,—0.5,4,—4} (8.44) 


以 上 就 是 多 分 辩 率 分 析 的 基本 思想 。 现 在 就 可 以 在 三 个 不 同 的 尺度 上 来 研究 输入 信和 号， 按照 
所 需 的 细节 而 从 一 个 尺度 转 到 另 一 个 。 分 析 过 程 可 以 重复 上 次 ， 直 到 在 近似 值 数列 中 只 剩 下 一 个 
元 素 。 在 本 例 中 ，n=3， 最 终 得 到 的 数列 为 
{Xn-3,1 ,dn_3i, dn_2i ,dn-1i} = {18.25, 0.25, -7,7,-1.5, -0.5, 4,-4} (8.45) 
现在 才 知 道 例子 中 之 所 以 是 3， 正 是 因为 得 到 最 终 的 结果 需要 经 过 三 次 变换 。 


数值 18.25 是 原 信号 的 最 粗略 的 近似 ， 也 正 是 原 数列 中 所 有 元 素 的 平均 值 。 从 本 例 中 也 可 看 
出 ， 变 换 的 计算 的 复杂 度 与 输入 数列 的 元 素数 目 入 成 正比 ， 即 O(N)。 
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将 一 维 Haar 小 波 变换 扩展 到 二 维 很 简单 ， 只 需 对 二 维 输入 的 行 和 列 分 别 进 行 一 维 变换 即 可 。 
下 面 将 描述 如 何在 图 8-13 所 示 的 8x8 输入 图 像 上 应 用 二 维 Haar 变换 。 
























































0|0|101010101010 
ojojojojo 0/00 
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a) 像素 值 b) 一 张 8x8 的 图 像 


图 8-13 ”二 维 Haar 小 波 变换 的 输入 图 像 


例 8-7 —# Haar 变换 

这 个 二 维 Haar 变换 的 例子 不 仅 用 来 说 明 如 何在 二 维 输入 上 应 用 小 波 变换 , 同时 也 指出 了 变换 
系数 的 意义 。 不 过 ， 举 这 个 例子 的 目的 只 是 使 读者 对 进行 一 般 的 二 维 小 波 变换 时 的 操作 有 一 个 直 
观 认识 。 后 续 小 节 将 具体 介绍 正 向 和 逆向 二 维 小 波 变换 的 算法 ， 并 且 会 给 出 一 个 更 加 详细 的 采用 
更 加 复杂 的 小 波 的 例子 。 

二 维 Haar 小 波 变换 

开始 , 我 们 先 对 输入 的 每 一 行 应 用 一 维 Haar 小 波 变换 ， 前 两 行 和 后 两 行 都 为 零 ， 对 剩余 的 几 
行进 行 取 平 均 和 求 差 值 运算 后 ， 得 到 如 图 8-14 所 示 的 中 间 输 出 结果 。 

接 下 来 对 中 间 结 果 的 各 列 进行 相同 的 一 维 Haar 变换 , 这 就 完成 了 一 个 层级 的 二 维 Haar 变换 。 
图 8-15 给 出 的 是 得 到 的 系数 。 
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图 8-14 二 维 Haar 小 波 变换 的 中 间 输 出 结果 图 8-15 第 一 层级 二 维 Haar 小 波 变换 的 输出 结果 


将 所 得 结果 划分 为 四 个 象限 ， 左 上 象限 包含 的 是 水 平方 向 和 竖 直 方向 上 的 平均 系数 ， 因 此 它 
可 以 被 看 作对 原 图 像 的 低 通 滤波 ， 滤 掉 了 高 频 的 尖锐 信号 ， 而 保留 了 低空 间 频 率 的 平滑 信息 。 

右上 象限 包含 的 是 水 平方 向 上 的 差 值 在 竖 直 方向 上 的 平均 值 ， 可 以 表示 原 图 像 的 径直 边 
缘 信 息 。 同 样 ， 左 下 象限 包含 的 是 水 平方 向 上 的 平均 值 在 竖 直 方向 上 的 差 值 ， 可 以 表示 原 图 
像 的 水 平 边缘 。 右 下 象限 包含 的 是 水 平方 向 和 竖 直 方向 上 的 差 值 ， 这 个 象限 的 系数 表示 的 是 
对 角 边 缘 。 

图 8-16 以 图 像 的 形式 更 加 清楚 地 表示 了 上 面 的 阐述 , 其 中 亮 的 像素 编码 为 正 值 ， 暗 的 像素 编 
码 为 负 值 。 

二 维 Haar 变换 的 逆 变 换 首先 使 用 式 (8.43) 转化 出 列 ， 然 后 再 转化 出 行 。 
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*8.6.2 ”连续 小 波 变换 

使 用 小 波 变换 的 初衷 是 ， 利 用 一 系列 基 函 数 把 时 域 
上 的 信号 分 解 成 频 域 和 时 域 上 变量 的 函数 。 传 里 叶 变换 
的 主要 作用 是 控制 空域 变化 较 大 的 信号 ， 对 时 域 上 变化 
较 大 的 信号 ， 传 里 叶 变 换 作用 不 大 。 而 小 波 变换 的 目的 
是 处 理 图像 不 同 部 分 的 内 容 。 

例如 ， 图 像 的 一 部 分 可 能 纹理 显著 ， 这 是 图 像 的 高 
频 部 分 ， 而 另 一 部 分 可 能 很 光滑 ， 这 是 图 像 的 低频 部 分 。 
对 这 种 情况 ， 人 们 自然 会 想到 把 图 像 分 成 不 同 部 分 ， 之 
后 连续 使 用 傅 里 叶 变 换 。 把 不 同时 段 频率 不 同 的 函数 分 ”图 8-16 小 波 变换 的 一 个 简单 的 图 形 示意 
开 处 理 ， 称 为 短 时 (aR Windowed) 傅 里 叶 变 换 。 然 而 ， 新 近 出 现 的 小 波 变换 相对 而 言 更 加 灵活 。 

为 了 深入 了 解 连续 小 波 变换 ， 我 们 需要 考虑 物理 学 上 Heisenberg 不 确定 原则 。 对 信和 号 处 理 来 
说 ， 在 减少 函数 的 频率 和 时 间 宽 度 的 准确 性 之 间 有 一 个 权衡 。 一 般 而 言 ， 我 们 很 难 用 有 效 的 基 函 
数 使 得 二 者 同时 精确 。 例 如 ， 正 弦 波 在 频 域 上 非常 精确 但 是 在 宽度 上 却 是 无 限 的 。 

以 下 是 一 个 快速 衰减 并 且 在 频 域 上 有 限 的 高 斯 函数 。 





=f? 
f@= a (8.46) 
oO T 





参数 a 是 高 斯 函数 的 幅 值 。 
从 该 函数 可 以 派生 出 另 一 个 函数 , 称 为 y(t) ,如 图 8-17a 所 示 , 它 的 波形 类 似 于 墨西哥 帽 , y(t) 
显然 在 时 间 上 是 有 限 的 。 它 的 方程 如 下 所 示 : 











1 {re 
t) = ——] e% |—-l f 
y(t) z= i | (8.47) 
3 
2 
有 1 
0 
-1 
-i0 -5 0 5 10 -i0 5 0 5 10 
时 间 频率 
a) o=0.5 b) 它 的 傅 里 叶 变 换 


图 8-17 ”墨西哥 帽 形 小 波 
我 们 对 yw(b 做 傅 里 时 变换 可 以 得 到 它 的 频率 特性 。 这 可 以 用 下 式 表示 : 
.天 (O)=mw?e 2 (8.48) 
图 8-17b 显示 了 如 下 函数 ， 其 候选 小 波 式 〈8.47) 在 频 域内 确实 是 有 限 的 。 
一 般 来 说 ， 小 波 是 具有 零 值 的 函数 we L (R). 





[wd=0 (8.49) 


上 式 满 足 某 些 条 件 ， 使 得 它 能 用 于 多 分 辨 率 分 解 。 这 些 条 件 可 以 保证 在 分 解 之 后 ， 我 们 能 够 对 图 
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像 的 局 部 进行 缩放 ， 就 像 能 够 对 地 图 进行 缩放 一 样 。 


229 


A (8.49) 称 为 小 波 的 成 立 条 件 〈admissibility condition)。 一 个 总 值 为 0 的 函数 ， 必 然 在 0 
轴 上 下 波动 。 同 样 ， 从 式 (8.26) 可 以 看 出 ， 在 w=0 时 对 yi) 进行 傅 里 叶 变换 后 ，DC 分 量 为 0。 
也 可 以 说 ，yY() 0 时 刻 Mo 的 值 为 0， 第 器 个 时 刻 的 值 为 : 


Mp =| PyOdt (8.50) 


YW 函数 被 规范 为 | =1， 而 且 集中 在 0 附近 。 把 下 述 母 函数 《mother wavelet) WK, HH 
之 后 ， 我 们 可 以 得 到 一 系列 小 波 函数 。 如 下 所 示 ， 


1 t-u 
vn- (8.51) 


只 要 wQ) 函数 是 规格 化 的 ， 那 么 ws (1) 也 是 规格 化 的 。 
连续 小 波 变 换 CWT) f ELDEN uw、 缩放 空间 s 上 的 定义 如 下 ; 


WF, syu) = f° FOV su Ode (8.52) 


对 一 维 信号 的 小 波 变换 结果 是 关于 缩放 空间 s 和 偏 移 量 zx 的 二 维 函 数 。 

重要 的 是 ， 和 式 〈8.26) 不 同 ， 傅 里 叶 变换 得 出 的 是 正弦 曲线 ， 而 式 (8.52) 却说 明 小 波 变 
换 却 不 一 定 得 出 正弦 曲线 。 小 波 变换 确定 了 一 系列 变换 函数 必须 遵守 的 规则 ， 然 后 可 以 创建 各 种 
符合 规则 的 函数 ， 用 来 满足 不 同 的 应 用 。 

DCT 变换 的 结果 可 以 看 作 是 一 系列 基 函 数 的 乘积 ， 那 么 这 里 小 波 变换 W 的 结果 就 是 从 母 函 
w(t) 用 缩放 和 平移 得 出 的 基 函 数 相互 作用 的 和 。 

AFERA yO 必须 是 一 个 振荡 函数 ， 所 以 它 是 一 个 波 。 那 么 为 什么 是 小 波 昵 ? 式 〈8.52) 
中 的 s 是 空域 上 的 分 析 参 数 。 我 们 可 以 取 某 些 s 的 值 来 看 信号 在 这 些 值 上 的 分 量 如 何 。 为 了 使 函 
数 快速 训 减 ， 除 了 选择 * 的 值 以 外 ， 我 们 必须 选择 一 个 衰减 性 能 和 s 的 指数 相当 的 母 函 数 y(t) 。 

MX (8.52) 可 以 看 出 ， 如 果 y(D) 中 接近 n 的 时 刻 值 都 为 0 (或 者 很 小 ， 近 似 0)， WA CWT 
的 系数 7V(f,s,w) CE u0 附近 呈 8 ”泰勒 级 数 ( 见 练习 9)。 这 是 我 们 期 望 的 好 的 函数 中 的 频率 局 域 化 。 

对 信号 的 不 同 部 分 进行 不 同比 例 的 小 波 变换 之 后 ， 我 们 可 以 得 到 小 波 系数 。 令 人 激动 的 是 ， 
如 果 我 们 压缩 小 波 ， 使 它 小 到 能 包括 一 部 分 多 项 式 最 高 次 数 为 n 的 多 项 式 AD， 此 小 波 以 及 更 小 
的 小 波 的 系数 将 为 0。 小 波 必 须 有 某 种 顺序 的 趋 零 瞬间 的 条 件 ， 是 母 小 波 具 有 某 种 数学 上 规律 性 
约束 的 特征 。 





连续 小 波 变 换 的 逆 变 换 如 下 : 
l ¢ +00 ¢ too 1 t-u)\l 
sosh, [Se sogu puas (8.53) 
其 中 
+001 P(w) |? 
Cy =f, œ dw < +00 (8.54) 


Fo) y(t) 的 傅 里 时 变换 。 式 〈8.54) 是 其 成 立 条 件 的 另 一 种 表示 。 

但 CWT 的 问题 是 (8.52) 性 能 并 不 好 : 大 部 分 的 小 波 都 是 从 简单 地 数值 计算 中 得 出 的 ， 而 
不 是 解析 的 。 这 样 的 结果 是 一 系列 无 穷 的 缩放 和 平移 函数 ， 而 通常 对 采样 函数 的 分 析 都 不 需要 这 
样 的 操作 《如 在 图 像 处 理 中 )。 因 此 ， 我 们 把 CWT 转换 到 离散 数 域 中 。 
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*8.6.3 ”离散 小 波 变换 

离散 小 波 也 是 从 一 个 母 函 数 中 派生 而 来 ， 但 是 平移 和 缩放 都 是 离散 的 。 

1， 多 分 辨 率 分 析 和 离散 小 波 变换 

连续 时 域 上 的 小 波 和 离散 时 域 上 的 滤波 器 组 (filter banks) 之 间 的 联系 是 多 分 辨 率 分 析 。 我 
们 就 在 这 一 框架 内 讨论 DWT. Mallat[f$] 中 提 到 ， 可 以 从 母 函 数 通 过 伸缩 和 平移 得 到 一 系列 L? CR) 
的 正 交 基 。 如 下 ， 其 中 Z 表示 一 组 整数 。 


1 1 一 277 
Win(t)= al - | (8.55) 
| v2) 2" (jn)ez’ 


这 叫做 二 进 缩 放 和 平移 ， 效 果 类 似 对 地 图 以 因子 Z 进行 缩小 。( 我 们 看 余弦 函数 的 图 形 ， 从 时 间 
0~2z 的 cos(D 和 cos(1/2)， 当 cos(9 过 了 一 个 周期 时 ，cos(W2) 只 有 半 个 周期 。 函 数 cos(2-10 是 一 个 展 
宽 函 数 ， 因 而 有 一 个 更 大 的 尺度 ,) 

注意 , 缩放 比例 的 变化 和 总 比例 27 总 是 保持 一 致 , 以 此 保证 低 分 辩 率 的 图 形 也 有 恰当 的 比例 。 
通常 来 说 ， 较 大 的 j 值 对 应 的 图 像 质量 较 低 。 

多 分 辨 率 分 析 能 够 针对 不 同 场景 ， 自 适应 的 呈现 波形 中 的 某 些 细节 。Mallat[6] 首 先 提 出 来 的 
八 阶 分 解 Octave Decomposition, 把 信号 分 解 成 近似 和 细节 两 部 分 。 近似 部 分 还 可 以 根据 不 同 精度 
需要 继续 分 解 成 近似 和 细节 部 分 。 小 波 变 换 能 够 使 得 在 分 辨 率 为 2-! 时 的 近似 值 能 够 计算 出 更 粗 
糙 的 近似 2 。 

小 波 能 够 用 来 表示 细节 部 分 的 信息 。 平均 信息 主要 由 母 函数 的 一 种 对 偶 确 定 , 叫做 缩放 函数 (0). 

小 波 理论 的 主要 思想 是 : 在 分 辩 率 为 7 的 情况 下 ， 可 以 由 一 系列 标号 为 的 平移 组 成 一 个 基 。 
有 趣 的 是 ， 组 成 jt1 次 变换 的 基 函 数 能 够 用 权重 之 和 乘 上 第 j 层 的 基 函 数 表示 ， 缩 放 函 数 的 系数 
必须 是 有 限 的 。 

HLR OR 3, M18 级 ) 的 小 波 基 函 数 由 缩放 函数 及 其 平移 值得 到 ， 第 / 级 〈 就 是 R 
1/4 级 ) 的 小 波 基 函数 则 由 缩放 函数 g 的 一 组 平移 值 、 以 及 母 函数 9 的 平移 组 得 到 。 缩 放 函 数 描述 
平滑 或 近似 的 信息 ， 小 波 描述 其 丢掉 的 〈 即 细节 ) 信息 。 

对 函数 g 的 缩放 平移 可 以 表示 成 上 一 层 变换 函数 的 加 权 和 , 所 以 缩放 函数 必须 满足 所 谓 的 “ 什 
缩 等 式 ”[7]: 





90) = F V2ho[n]p(2r— 1) (8.56) 
neZ 


方 括号 里 的 表达 式 源 于 滤波 器 理论 。 缩放 方程 表明 要 找 的 函数 必须 是 从 母 函 数 通过 平移 、 缩 放 之 后 的 
不 同 变 体 函 数 的 和 。 式 〈8.56) 说 明了 缩放 函数 必须 满足 的 条 件 ， 同 时 还 给 出 了 缩放 矢量 加 的 定义 。 
不 仅 是 缩放 函数 本 身 ， 小 波 基 函数 也 可 以 表示 成 缩放 函数 的 和 ; 


w(t) = F V2 及 [mg(2+ 一 站 (8.57) 
neZ 
ANB PR BR BRE h, 可 以 由 缩放 函数 的 矢量 得 出 , 并 且 小 波 基 函 数 也 可 以 从 缩放 函数 得 出 ; 
VAO = DD" hol —n]p(2t -n) (8.58) 
neZ 
就 是 说 ， 小 波 基 函 数 和 缩放 函数 有 相同 的 性 质 。 事 实 上 ， 式 〈8.56) 也 使 用 了 同样 的 系数 ， 只 不 
过 用 了 相反 的 顺序 和 符号 。 


考虑 性 能 因素 ， 实 际 应 用 中 式 〈8.56) 和 式 〈8.57) 中 的 项 越 少 越 好 ， 因 此 我 们 希望 矢量 户 和 
ho 中 项 越 少 越 好 。 缩 放 函 数 的 作用 是 对 信和 号 进行 缩放 、 平 滑 。 所 以 它 的 实际 效果 类 似 于 低 通 滤波 
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器 ， 滤 去 高 频 部 分 。 滤 波 函 数 对 一 个 在 =0 时 刻 出 现 的 脉冲 的 作用 ， 可 以 通过 矢量 如 [四 反映 ， 
此 它 又 叫做 低 通 滤波 冲 激 响 应 因子 。 一 个 完整 的 离散 信号 是 由 从 0 开始 , 幅度 为 离散 值 的 脉冲 组 成 。 

因此 ， 只 需要 离散 低 通 滤 波 脉冲 响应 因子 ho[n] 就 能 描述 一 个 DWT。j[ 四 描述 近似 部 分 ， 高 
通 滤 波 脉冲 响应 因子 有 [n] 描述 信号 细节 部 分 。 它 能 够 从 [nn] 推导 出 : 


A[n] = (-1)” hof1—7] (8.59) 

冲 激 响应 中 系数 的 个 数 又 称 为 滤波 器 的 tap 数 。 如 果 hn 有 有 限 个 非 无 穷 的 项 ， 那 么 得 出 的 
小 波 叫 做 紧 致 小 波 。 通常， 有 些 po[n] 还 可 以 具有 正 交 和 规范 的 性 质 。h[n] 和 有 [nj 又 分 别称 为 低 
通 和 高 通 滤波 器 。 

为 了 重建 原始 信号 ， 我 们 需要 一 个 道 滤波 器 ， 也 叫做 合成 滤波 器 。 对 于 正 交 的 小 波 来 说 ， 正 
变换 和 逆 变 换 可 以 互 换 。 分 析 滤 波 器 和 合成 滤波 器 是 相同 的 。 

更 弱 的 情况 是 小 波 不 正 交 , 分 解 和 合成 所 用 的 小 波 双 正 交 。 此 时 分 解 小 波 和 综合 小 波 不 相同 ， 
分 别 记 为 加 [n] 和 负 [n] 。 我 们 同时 需要 加 [n] 和 hfn] 来 描述 一 个 双 正 交 的 小 波 。 同 样 ， 高 通 滤 波 
器 可 以 用 低 通 滤波 器 来 表示 : 


hy [n] = (-1)" fo [1-77] (8.60) 
hy [n] = (-1)" h [1-71] (8.61) 


表 8-2 和 表 8-3 给 出 了 常用 的 正 交 和 双 正 交 的 小 波 。 表 中 的 “开始 索引 ”表示 式 (860) AR 
(8.61) Pn 的 起 始 数字 。 


表 8-2 正 交 小 波 滤波 器 
小 波 开始 索引 系数 
Haar | 2 | o | 0.707, 0.707) 
Daubechies 4 | 4 | o |ro483, 0.837, 0.224, -0.129] 
Daubechies 6 | 6 | o | 10.332, 0807, 0.460, -0.135, -0.085, 0.0352) 
[La | o0 | 


Daubechies 8 [0.230, 0.715,0.631, —0.028, —0.187, 0.031, 0.033, —0.011] 
图 8-18 是 一 个 一 维 二 元 小 波 变换 器 的 示意 图 。 这 里 x[m] 表 示 要 处 理 的 离散 信号 。[+3] 表示 每 
隔 一 秒 的 采样 ， 而 [12] 表示 恢复 出 采样 间隔 。 重 构 变换 得 出 y[n]。 
表 8-3 双 正 交 小 波 滤波 器 
小 流 z 数 
Antonini 9/7 | mlz] | 9 | = | [0.038, -0.024, -0.111, 0.377, 0.853, 0.377, -0.111, -0.024, 0.038] 
Ah] 3 | [-0.065, -0.041, 0.418, 0.788, 0.418, -0.041, -0.065] 


Villa 10/18 ho[n] 10 -4 [0.029, 0.0000824, -0.158, 0.077, 0.759, 0.759, 0.077, -0.158, 0.0000824, 
0.029] 


ho{n] [0.000954, -0.00000273, -0.009, -0.003, 0.031, -0.014, -0.086, 0.163, 
0.623, 0.623, 0.163, -0.086, -0.014, 0.031, ~0.003, -0.009, -0,00000273, 
0.000954] 
Brislawn | hln] | 10 | 4 | (0.027, -0.032, -0.241, 0.054, 0.900, 0.900, 0.054, 0.241, 0.032, 0.027) 
[0.020, 0.024, -0.023, 0.146, 0.541, 0.541, 0.146, —0.023, 0.024, 0.020} 


在 分 解 过 程 中 ， 每 一 步 x[n] 被 分 解 成 同样 长 度 的 另 一 个 序列 ， 前 面 的 部 分 是 信号 的 近似 ， 后 
面 的 部 分 是 细节 部 分 。 对 一 个 N-tap 的 滤波 器 ， 在 下 面 的 序列 中 ， 
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j 


{x[n} > "四 -| [nj Safi al (8.62) 
奇数 部 分 被 丢弃 。 式 8.62) 中 移 位 系数 上 的 总 和 叫做 卷 积 。 








xin] 











图 8-18 ”一 维 双 通道 小 波 变换 示意 图 


2，、 二 维 离散 小 波 变 换 

把 小 波 变换 扩展 到 二 维 空间 是 很 简单 的 。 如 果 一 个 二 维 缩放 函数 能 够 分 解 成 两 个 一 维 的 缩放 
函数 ， 则 该 二 维 缩放 函数 称 为 “可 分 解 的 ”: 

$(x,y)=0(x)o(y) (8.63) [233 

为 了 简化 ， 本 小 节 只 考虑 可 分 解 的 小 波 变换 。 而 且 本 部 分 假设 图 像 的 长 和 宽 都 是 2 HORE. 

考虑 一 个 NxN 的 图 像 ， 二 维 小 波 变换 过 程 如 下 : 

1) 对 图 像 的 每 一 行 和 ho[n] 和 加 [n] 做 卷 积 ， 丢 弃 结 果 中 奇数 部 分 ， 把 剩 下 的 两 个 数列 组 合成 
一 个 数列 。 

2) 对 所 有 行 做 上 述 变换 之 后 ， 把 每 一 列 和 ho[n] Ahn) 做 卷 积 ， 同 样 丢 弃 奇 数 部 分 的 数据 ， 
把 剩 下 的 数列 合成 一 个 数列 。 

上 述 两 个 步骤 是 DWT 的 操作 之 一 ， 现 在 , ,变换 后 的 图 像 有 四 个 部 分 组 成 ， LL、HL、LH、 
HH， 如 图 8-19a 所 示 。 在 一 维 变换 中 ，LL 子 带 还 可 以 继续 进行 下 一 步 分 解 。 这 个 过 程 可 以 一 直 
持续 ， 直 到 足够 多 的 分 解 ， 或 者 直到 LL 子 带 只 有 一 个 元 素 为止 。 二 维 的 分 解 如 图 8-19b 所 示 。 234 

逆 变 换 可 以 把 分 解 的 过 程 逆转 ; 

1) 把 变换 后 的 图 像 中 的 每 一 列 ， 分 成 低 通 和 高 通 系 数 。 在 采样 的 间隔 中 插入 0。 

2) 将 低 通 部 分 和 ho[n] HER, RRA y(n] RER, REM. 

3) 所 有 的 列 都 处 理 之 后 ， 将 每 一 行 都 拆 成 低 通 和 高 通 两 部 分 ， 在 采样 间隔 中 插入 0。 

4) 将 低 通 部 分 和 hofn] 做 卷 积 ， 高 通 部 分 和 为 [n] 做 卷 积 ， 求 其 和 。 

如 果 是 用 双 正 交 滤 波 器 ， 那 么 重 现 过 程 中 hln] 和 及 [nj 分 别 被 加 [n] 和 名 [n] 取代。 
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LL2 | HL2 | 
LL HL HLI 
LH2 | HH2 
= 
LH HH LHI HHI 
a) 一 阶 变 换 b) 二 阶 变换 


图 8-19 ”二 维 离散 小 波 变换 


例 8-8 
输入 图 像 是 一 个 部 分 采样 的 Lena 图 像 ， 如 图 8-20 所 示 ， 大 小 为 16x16。 采用 的 是 表 8-3 中 给 
235 | 出 的 Antonini 9/7 滤波 器 。 
在 开始 之 前 ， 我 们 要 用 式 〈8.60) 和 式 〈8.61) 所 示 的 方法 ， 计 算 分 解 和 重 现 要 用 的 高 通 和 
低 通 滤波 器 ， 得 到 如 下 结果 : 
h[n]=[-0.065,0.041,0.418,—0.788,0.418,0.041,—0.065] 
h[n]=[-0.038,—0.024,0.111,0.377,—0.853,0.377,0.111,—0.024, -0.038] 


bo _. ibe “hiji 
5 = ro bs 
J $ k rs > 


(8.64) 





图 8-20 Lena 
输入 图 像 的 数字 表示 如 下 : 


100(x， y) = 99 140 103 109 103 124 54 81 172 137 178 54 43 159 149 174 


7 表示 像素 值 ，7 的 下 标 分 别 表示 当前 变换 的 级 数 和 在 本 级 变换 中 步 数 。 我 们 首先 将 第 一 行 分 别 和 
ho[n] 、h[n] 做 卷 积 ， 丢 弃 结果 集中 的 奇数 部 分 。 操 作 的 结果 如 下 : 


(Too (:, 0) * ho[n]) 4 2 =[245,156,171,183,184,173, 228, 160] 
(Io (:,0) * h [n]) J 2 =[-30,3,0,7,-5, -16, -3, 16] 


其 中 冒号 表示 整 行 。 读 者 可 以 自行 用 MATLAB 验证 这 个 结果 。 





下 面 ， 我 们 将 以 上 两 行 合 在 一 起 。 


下 结果 : 


I(x, y= 
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[245,156,171,183,184,173, 228, 160, -30,3,0,7,—5,—16,—3,16] 


和 一 维 Haar 变换 一 样 ， 现 在 大 部 分 的 能 量 都 集中 在 结果 的 前 半 部 分 。 继 续 计算 剩 下 的 行 ， 得 到 如 


下 面 对 列 进行 变换 ， 将 第 一 列 分 别 和 hon]. n(n] 做 卷 积 ， 并 丢弃 奇数 部 分 : 


(L1 (0,:)* ho{n]) 4 2 =[353, 280, 269, 256, 240, 206, 160, 153, ]” 
(11:(0,:) * hin] 42 =[-12, 10, -7,-4, 2,-1, 43, 16]" 


继续 处 理 剩 下 的 列 ， 得 到 如 下 : 


Ti2(x, y) = 


到 此 我 们 完成 了 离散 小 波 变换 的 一 


353 
280 
269 


-3 
22 
-i8 
2 


继续 做 变换 。 结 果 如 下 : 


In(x, y= 


451 
Sil 
401 
335 
33 
36 
—20 
37 


251 
254 
312 
247 
226 
201 
150 
113 
-9 
-3I 
—44 
-l 
9 
32 
32 
—6 


272 
250 
280 
155 
172 
192 
135 


532 
566 
416 
553 
42 
52 
-7 
31 
一 13 
16 
-35 
一 37 
—25 
46 
一 40 
一 32 


230 
244 
260 
6 
-1 
67 
4! 
2 
10 
-13 
-7 


308 
297 
337 
144 
113 
232 
267 
256 
12 
-10 
-17 
-33 
60 
~il 
一 37 
-13 


289 
207 
227 
283 
330 
300 
331 
176 
-0 
—30 
~15 
2 
一 8 
20 
-61 
一 350 


-1] 
19 

8 
24 


7 


一 15 
一 2 
56 
一 14 
31 
-53 
一 17 
—38 
14 

0 
一 28 
-67 
一 123 
~59 
2 
-61 


43 
-33 





一 3 16 
27 141 
一 38 一 1 
-101 +78 
101-54 
94 一 4 
29 4 
一 23 8 
—56 —5 
-54 —31 
~1 -64 
-7 -76 
24 85 
36 91 
30 —24 
-22 -33 
38 120 
一 ?4 23 
82 -8l 
49 12 
一 78 一 3 
-18 —107 
29 89 
25 -5 
-45 -99 
109 42 
-18 -19 
2 0 
14 -12 
16 73 
-8 —45 
43 l 


次 变换 。 我 们 可 以 继续 对 变换 结果 的 左上 8x8 的 部 分 2x, y) 


一 29 38 120 
—26 -74 23 
21 8&2 -8i 
90 49 12 
60 -78 -3 
46 -18 -i107 
49 29 89 
-75 25 -5 
3 —45 -99 
-45 109 42 
—30 -i8 -19 
3 2 0 

一 4 14 ~12 
50 16 73 
43 -8 —45 
一 33 43 1 


237 
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hal y) 和 7122(x,y) 的 子 带 分 别 对 应 图 8-19 中 的 a 和 b。 现 在 ， 我 们 可 以 对 不 同 的 子 带 使 用 
不 同 级 别 的 量化 ， 达 到 特定 的 效果 和 数据 率 。 这 就 是 简单 小 波 变换 压缩 算法 的 基础 。 现 在 我 们 是 


要 说 明 小 波 变换 的 机 理 ， 这 里 就 不 做 量化 ， 而 是 直接 重 构 函数 。 


我 们 把 图 8-19 最 左上 角 的 8x8 图 像 开 作为 开始 , 把 第 一 列 分 成 低 通 和 高 通 两 部 分 , 低 通 显然 


是 数列 前 面 的 一 半 。 在 每 个 系数 后 面 加 一 个 0， 得 到 如 下 结果 : 


ä = [558,0,463,0,464,0,422,0] 
b =[14,0,-13,0,25,0,46,0]" 


Pik AE UE, IG. BBA Aon. hin 做 卷 积 。 


8x1 的 数组 ， 如 下 所 示 : 


[414, 354, 323, 338, 333, 294, 324, 260)" 


最 左上 角 的 8x8 图 像 每 一 列 都 这 样 处 理 之 后 ， 得 到 如 下 结果 ; 


414 337 

354 322 

323 395 

338 298 

333 286 

294 279 

324 240 

r 260 189 
hi (x ’ y) = 一 12 7 
10 3 

一 了 S 

一 4 9 

2 -3 

一 1 22 

43 -18 

16 2 


现在 开始 对 行进 行 变 换 。 对 左上 角 的 8x8 图 像 ， 再 把 每 一 行 分 成 低 通 和 高 通 两 部 分 ， 在 每 个 系数 


一 33 
一 45 


将 结果 相 加 ， 称 为 一 个 


RAO, BRA hon]. hin] 做 卷 积 。 所 有 的 行 都 进行 相应 处 理 ， 可 得 到 如 下 结果 : 


I(x, y= 一 12 7 


之 后 用 同样 的 方法 ， 对 112(x, y) 进行 处 理 ， 得 到 ol y) 。 注 意 1oo(x, y) 和 1oo(x, y) 并 不 等 同 ， 但 


差别 不 大 。 这 些微 小 的 差别 是 由 正 变换 和 逆 变 换 过 程 ， 以 及 计算 过 程 中 从 浮 点 数 转换 成 整数 灰 度 
值 造成 的 。 图 8-21 是 一 个 Haar 小 波 的 三 级 分 解 。 


251 
254 
312 
247 


272 
250 
280 
155 
172 
192 
135 
173 
-13 
16 
—35 


一 40 
一 32 


281 
402 
316 
236 
264 
230 
244 
260 


234 
269 


308 
297 


289 
207 
227 
283 
330 


一 33 
—45 
-70 
-52 
-41 
-76 


—29 
-26 
21 
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Tog (x, y) = 98 139 102 109 103 123 53 80 171 136 177 53 43 158 148 173 








图 8-21 Haar 小 波 分 解 (A Steve Kilthau 授权 ) 


3， 小 波 约 简 程序 

另 一 个 基于 小 波 变换 的 图 像 缩小 算法 更 为 简单 ， 它 的 基本 思想 是 仅仅 保留 最 低频 率 。 本 书 的 
网 站 上 的 wavelet_reduction.c 是 它 的 一 个 实例 ， 仅 限于 调整 缩放 函数 和 分 解 滤波 器 ， 使 得 图 像 缩 
小 若干 倍 。 此 程序 支持 UNIX 下 PGM 文件 格式 ， 使 用 了 表 8-3 中 Antonini 9/7 双 正 交 滤 波 器 。 


8.7 小 波 包 

小 波 包 可 以 看 作对 小 波 的 通用 化 。 它 是 由 Coifman、Meyer、Quake 和 Wickerhauser[9] 首 先 提 
出 的 ， 是 系列 标准 正 交 基 的 离散 函数 RY"。 一 个 完整 的 子 带 分 解 可 以 看 作用 深度 为 logN 的 分 析 树 
对 输入 信号 进行 分 解 。 

在 通常 的 二 元 小 波 分 解 中 , 只 有 低 通 滤波 子 带 被 递归 分 解 , 因而 结果 可 以 表示 为 对 数 树 结构 。 
然而 ， 小 波 包 分 解 可 以 用 全 树 的 任何 子 树 表 示 。 因 此 ， 分 解 之 后 的 树 形 和 所 有 人 允许 的 子 波 树 同 构 
[10]。 任 何 一 个 子 树 的 叶子 表示 一 个 可 能 的 正 交 基 。 


。 灵 活性， 因为 在 某 种 程度 上 寻找 性 能 最 优 的 基 函 数 可 以 从 大 量 的 准 入 函数 库 中 选取 。 
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。 在 频 域 和 空域 上 都 具有 良好 的 定位 性 。 
。 计算 复杂 度 小 ， 因 为 任 一 分 解 都 可 以 用 快速 滤波 器 库 完成 ， 复 杂 度 为 NlogN 。 


小 波 包 目前 应 用 广泛 ， 例 如 图 像 压 缩 、 信 号 去 噪 处 理 、 指 纹 检测 等 。 


8.8 ”小 波 系数 的 嵌入 零 树 


到 目前 为 止 ， 我 们 已 经 介绍 了 用 于 图 像 分 解 的 基于 小 波 的 方案 。 然 而 ， 除 了 提 到 量化 掉 小 系 
数 的 思想 ， 我 们 还 没有 真正 解决 如 何 对 小 波 变换 值 进行 编码 ， 即 怎样 形成 位 流 。 这 个 问题 的 处 理 
需要 采用 一 种 新 的 数据 结构 一 一 嵌入 零 树 。 

嵌入 式 零 树 小 波 〈Embedded Zerotree Wavelet, EZW) 算法 是 由 Shapirof11] 提 出 的 ， 它 是 图 
像 编码 中 一 种 有 效 且 计算 效率 高 的 技术 。 此 后 又 有 许多 人 对 最 初 的 EZW 算法 做 了 改进 ， 其 中 最 
值得 关注 的 是 Said 和 Pearlman 的 层次 树 集合 划分 (Set Partitioning in Hierarchical Trees, SPIHT) 
算法 [12] 和 Taubman 的 优化 截断 说 入 式 块 编码 ( Embedded Block Coding With Optimized 
Truncation, EBCOT) 算法 [13]， 后 者 被 JPEG2000 标准 所 采用 。 

EZW 算法 解决 两 个 问题 : 在 给 定 的 码 率 下 获得 最 优 的 图 像 质 量 并 以 一 种 嵌入 式 的 方式 完成 这 
UES. KA (embedded) 码 是 一 种 将 所 有 低 率 码 包含 在 位 流 的 开始 部 分 的 编码 。 每 个 位 在 位 流 
中 按 重要 性 有 效 地 排列 。 媒 入 码 允 许 编码 器 在 任意 点 结束 编码 ， 从 而 准确 地 满足 任何 目标 码 率 。 
同样 ， 解 码 器 也 可 以 在 任意 点 结束 解码 ， 产 生 和 低 率 编码 对 应 的 重 现 值 。 

为 了 达到 这 一 目标 , EZW 算法 利用 了 低 码 率 图 像 编码 的 一 个 重要 优点 。 用 常规 的 编码 方法 实 
现 低 码 率 时 ， 要 使 用 标量 量化 加 上 粹 编码 ， 这 样 ， 在 量化 之 后 最 可 能 的 符号 是 零 。 其 结果 是 大 部 
分 的 位 都 用 于 对 重要 性 图 的 编码 ， 重 要 性 图 标记 输入 样本 在 二 维 离散 小 波 变换 的 情形 下 为 变换 
系数 ) 的 量化 值 是 零 值 还 是 非 零 值 。 EZW 算法 正 是 利用 了 这 一 点 ,将 对 重要 性 图 的 编码 中 的 任 一 
显著 改进 转化 为 相应 的 压缩 效率 的 提高 。 EZW 算法 由 两 个 中 心 部 分 组 成 : 零 树 数据 结构 和 逐次 近 
似 量化 方法 。 

8.8.1 零 树 数 据 结 构 


我 们 使 用 一 种 称 为 零 树 zerotree》 的 新 数据 结构 实现 对 重要 性 图 的 编码 。 对 于 小 波 系 数 x 和 
给 定 的 阐 值 7， 如 果 |x| <7 ， 我 们 称 小 波 系 数 x FES insignificant). MR FARRAR, WS 
树 起 作用 : 如 果 在 粗 ( 大 〉 尺 度 下 的 一 个 小 波 系 数 对 于 给 定 的 阐 值 7 FEE, WAA Cb) 尺度 
下 相同 空间 位 置 相同 方向 的 所 有 的 小 波 系数 对 于 7 都 可 能 不 重要 。 使 用 第 8 章 介绍 的 层次 小 波 分 
解 ， 就 可 以 将 一 个 给 定 尺度 下 的 每 一 个 系数 同 相 同方 向 上 下 一 个 更 高 缩放 比例 下 的 一 组 系数 联系 
起 来 。 

图 8-22 显示 了 三 级 小 波 分 解 的 零 树 。 粗 (大 ) 尺度 下 的 系数 被 称 作 父 (parent) 节点 ， 而 下 
一 级 细 (小 ) 尺度 下 相同 空间 位 置 相同 方向 的 系数 称 作 子 〈children ) 节点 。 对 某 一 确定 的 父 节点 ， 
所 有 比 其 更 精细 的 缩放 比例 下 的 所 有 系数 的 集合 称 为 后 代 〈descendant)。 同 样 对 某 一 确定 的 子 节 
点 ， 所 有 比 其 更 粗 的 尺度 下 的 所 有 系数 的 集合 称 为 祖先 (ancestor). 

对 系数 的 扫描 遵循 这 样 的 原则 ， 即 子 节点 不 能 在 其 父 节点 之 前 被 扫描 。 图 8-23 描述 了 一 个 三 
级 小 波 分 解 的 扫描 方式 。 

对 一 个 给 定 的 阔 值 7 ， 如 果 系 数 x 不 重要 ， 并 且 它 的 所 有 后 代 也 都 不 重要 ， 就 称 该 系数 是 零 
树 的 一 个 元 素 。 零 树 中 的 元 素 如 果 不 是 上 一 个 零 树 根 的 后 代 ， 那 么 它 就 是 一 个 零 树 根 。 可 以 用 四 
符号 的 零 树 对 重要 性 图 进行 编码 ， 这 四 个 符号 是 : 
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。 SHR “ 零 树 根 用 一 种 特殊 的 符号 编码 ， 这 个 符号 表明 更 高 缩放 比例 下 该 系数 不 重要 是 完 
全 可 预知 的 。 
。 独 立 零 ” 该 系数 不 重要 ， 但 有 重要 的 后 代 。 











K 8-22 零 树 中 的 父子 关系 图 8-23 EZW 的 扫描 次 序 


。 正 重要 性 ”该 系数 重要 ， 并 且 是 正 值 。 

。 负 重要 性 ”该 系数 重要 ， 并 且 是 负 值 。 

采用 零 树 后 ， 大 大 减少 了 对 重要 性 图 的 编码 成 本 。 零 树 的 操作 利用 了 变换 系数 的 自 相似 性 。 
采用 零 树 最 重要 的 理由 就 在 于 即使 图 像 经 过 了 解 相关 的 变换 ， 出 现 不 重要 的 系数 也 不 是 独立 事件 。 

另外 ， 零 树 编码 技术 基于 这 样 一 个 经 验 ， 即 预测 不 同 尺度 下 的 不 重要 性 比 预测 重要 性 容易 得 
多 。 这 一 技术 主要 关注 减 小 对 重要 性 图 编码 的 成 本 ， 从 而 可 以 采用 更 多 的 位 来 对 耗 用 位 更 多 的 有 
效 系数 进行 编码 。 


8.8.2 ”逐次 近似 量化 


EZW 编码 器 中 的 虚 入 式 编码 通过 采用 一 种 称 为 逐次 近似 量化 〈Successive Approximation 
Quantization, SAQ) 的 方法 来 进行 。 采 用 这 种 方法 的 一 个 目标 是 生成 嵌入 式 的 编码 ， 从 而 为 小 波 
变换 图 像 对 应 的 缩放 比例 空间 提供 从 粗略 到 精细 的 多 精度 的 对 数 表示 。 另 一 个 目标 是 进一步 利用 
零 树 数据 结构 在 重要 性 图 编码 上 的 高 效率 ， 对 更 多 的 重要 性 图 进行 编码 。 

SAQ 方法 顺序 地 应 用 一 个 六 值 序列 Th,…,Tw-i 来 判定 每 个 系数 的 重要 性 ， 阔 值 的 选择 使 得 
T=7T/2。 第 一 个 阐 值 元 应 满足 对 所 有 的 变换 系数 xj 都 有 |xj|< 276。 在 编码 和 解码 过 程 中 生成 
主 表 和 副 表 ， 主 表 中 包含 还 没有 被 判定 是 重要 性 的 系数 的 坐标 ， 其 相对 顺序 与 初次 扫描 相同 。 

按照 图 8-23 所 示 的 扫描 顺序 , 某 一 特定 子 带 的 所 有 系数 比 其 下 一 个 子 带 的 系数 优先 出 现在 初 
始 主 表 中 。 副 表 所 包含 的 是 那些 被 判定 为 重要 的 系数 的 值 。 对 每 个 闪 值 ， 每 个 表 都 只 扫描 一 次 。 

在 主 扫描 过 程 中 ， 系 数 的 坐标 在 主 表 中 表明 它 还 是 不 重要 的 。 这 些 系数 会 与 阅 值 了 比较 以 判 
断 其 重要 性 。 如 果 一 个 系数 被 判断 为 重要 的 ， 那 么 它 的 幅 值 就 被 添加 到 副 表 中 ， 同 时 小 波 变换 数 
组 的 系数 置 为 零 ， 这 样 在 以 后 的 主 扫描 中 对 于 更 小 的 阔 值 仍然 可 以 生成 零 树 。 最 后 得 到 的 重要 性 
图 就 已 经 是 经 过 零 树 编码 的 了 。 

主 扫描 之 后 是 副 扫描 ， 副 表 中 的 所 有 系数 及 其 幅 值 都 要 被 扫描 ， 在 解码 器 端 完 成 这 一 步 后 ， 
就 可 以 将 其 幅度 的 精度 位 数 提高 一 位 ， 其 结果 是 系数 真实 幅 值 的 不 确定 度 区 间 的 宽度 减 小 一 半 。 
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对 副 表 中 的 每 个 幅 值 ， 这 一 改进 可 以 用 二 值 的 字符 表 来 编码 ， 其 中 1 表示 真实 值 落 在 不 确定 度 区 
间 的 上 半 部 分 ， 而 0 表示 落 在 下 半 部 分 。 用 上 面 得 到 的 二 值 字符 串 就 可 以 进行 焙 编 码 。 在 副 扫 描 
之 后 ， 副 表 中 的 幅 值 就 以 降序 排列 ， 直 到 解码 器 也 可 以 进行 相同 的 排序 。 

两 种 扫描 不 断交 替 进 行 ， 不 过 每 次 主 扫描 之 前 ， 阔 值 都 要 减 半 。 当 满足 某 一 目标 停止 条 件 时 ， 
编码 过 程 才 停 下 来 。 
8.8.3 EZW 示例 


下 面 的 例子 说 明了 零 树 编码 和 逐次 近似 量化 的 概念 。 
Shapiro[11] 在 其 论文 中 给 出 了 一 个 8x8 三 级 小 波 变换 的 EZW 编 
码 的 例子 。 与 Shapiro 所 给 的 例子 不 同 ， 我 们 将 完成 编码 和 解码 
过 程 ， 并 且 给 出 业 编 码 之 前 的 输出 位 流 。 

图 8-24 所 示 为 我 们 试图 采用 EZW 算法 进行 编码 的 三 级 小 波 
变换 的 系数 。 我 们 用 符号 pp、n、t 和 zz 来 分 别 表示 正 重要 性 、 负 
重要 性 、 零 树 根 和 孤立 零 值 。 8-24 一 个 作为 EZW 算法 输 

由 于 最 大 的 系数 是 57， 因 此 我 们 选择 初始 阐 值 X32 F 入 的 三 级 小 波 变换 的 系数 
始 ， 主 表 包 含 所 有 系数 的 坐标 。 按 图 8-23 所 示 的 顺序 开始 扫描 ， 判 断 各 个 系数 的 重要 性 ， 以 下 是 按 
扫描 顺序 依次 访问 到 的 系数 : 

{57, ~37, —29, 30, 39, -20,17,33,14,6,10,19,3,7,8, 2, 2,3,12,—9,33, 20, 2,4} 

WTA =32 ， 很 容易 看 出 系数 57 和 -37 是 重要 的 。 这 样 ， 输 出 一 个 p 和 一 个 来 表示 
它们 。 系 数 -29 本 身 不 重要 , 不 过 它 包 含 了 一 个 重要 的 后 代 , 即 LH1 中 的 33, 因此 把 它 编码 为 z 。 
系数 30 也 是 不 重要 的 , 并 且 它 所 有 的 后 代 对 于 当前 的 疮 值 来 说 都 是 不 重要 的 , 所 以 将 其 编码 为 + 。 

由 于 前 面 已 经 判定 了 30 及 其 后 代 的 不 重要 性 ， 因 此 以 后 的 扫描 将 绕 过 它们 , 也 不 会 再 产生 多 
余 的 符号 。 按 这 种 方式 进行 下 去 ， 主 扫描 输出 如 下 的 符号 : 

Do : pnztpttptzttpttt 

有 五 个 系数 被 判定 为 重要 的 ， 即 57, -37, 39. 33 和 另 一 个 33。 显 然 ， 没 有 一 个 系数 大 于 
21 = 64 ， 而 第 一 次 主 扫描 用 的 阔 值 是 32， 因 此 不 确定 度 区 间 就 是 [32,64) ， 重 要 性 系数 就 在 这 个 
不 确定 度 区 间 的 某 处 。 

主 扫描 之 后 的 副 扫描 指出 系数 落 在 不 确定 度 区 间 的 前 半 部 分 还 是 后 半 部 分 ， 从 而 改进 这 些 系 
数 的 幅 值 。 如 果 系 数值 落 在 区 间 [32,48) ， 输 入 为 0， 落 在 区 间 148,64) 则 为 1。 按 照 扫描 的 顺序 ， 
副 扫描 输出 下 面 的 位 : 






12 15 33 20 
0 7 2 4/4 
4 1 10 3|2 











So: 10000 


这 时 主 表 中 包含 除了 被 判定 为 重要 的 所 有 系数 的 坐标 , 而 副 表 包含 的 值 为 {57,37,39,33,33} 。 副 扫 
描 结 束 后 ， 重 新 排列 副 表 中 的 数值 ， 使 得 较 大 的 系数 在 较 小 系数 的 前 面 ， 排 列 还 要 符合 一 个 约束 ， 
即 解码 器 也 可 以 进行 相同 的 排列 。 

由 于 副 扫描 将 不 确定 度 区 间 分 成 两 半 ， 解 码 器 就 能 够 分 辨 区 间 [32,48) 和 [48,64) 内 的 数值 。 
39 和 37 在 解码 器 端 无 法 区 分 ， 因 而 它们 的 次 序 也 不 会 改变 。 因 此 ， 在 重新 排序 过 程 之 后 ， 副 表 
仍旧 保持 原样 。 


在 开始 第 二 轮 的 主 扫描 和 副 扫 描 之 前 ， 应 该 将 小 波 变换 数组 里 重要 性 系数 的 值 填 为 0， 这 样 
就 不 会 影响 新 的 零 树 的 产生 。 
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第 二 轮 主 扫 描 的 新 闻 值 为 7 =16 。 使 用 与 上 面相 同 的 过 程 ， 主 扫描 输出 下 面 的 符号 《这 里 需 
要 注意 的 是 ， 这 次 不 再 扫描 主 表 里 的 系数 了 ): 


D; : zznptnpttztptttttttttttttptttttt (8.65) 


这 时 的 副 表 为 {57,37,39,33,33,29,30,20,17,19,20} 。 接 下 来 的 副 扫 描 将 当前 的 不 确定 度 区 间 
[48,64) 、[32,48) 和 [16,32) 都 分 成 两 半 ， 副 扫描 输出 下 面 的 数 : 


Sı : 10000110000 


接 下 来 将 小 波 变换 级 数 中 被 判定 为 重要 的 系数 的 值 都 置 为 0。 
随后 的 主 扫描 和 副 扫描 的 输出 如 下 面 所 示 : 


D2 : zzzzzzzzptpzpptnttptppttpttpttpnppttttttpttttttttttttttt 
S2: 01100111001101100000110110 

D3: zzzzzzztzpztztnttptttttptnnttttptttpptppttpttttt 

$3: 00100010001110100110001001111101100010 

D4: zzzzzttztztzztzzpttpppttttpttpttnpttptptttpt 

S4: 1111101001101011000001011101101100010010010101010 
Ds: zzzztzttttztzzzzttpttptttttnptpptttppttp 


由 于 最 后 一 次 扫描 的 不 确定 度 区 间 的 长 度 为 1， 所 以 最 后 一 次 副 扫 描 就 没有 必要 进行 了 。 

在 解码 器 端 ， 假 设 我 们 只 接收 到 第 一 个 主 扫描 和 副 扫 描 的 信息 。 将 编码 过 程 逆向 执行 ， 就 [246] 
可 以 重 现 变换 系数 ， 不 过 带 有 一 定 的 损耗 。 由 Do 中 的 符号 可 以 获得 重要 性 系数 的 位 置 。 接 着 ， 
利用 对 So 解码 的 结果 ， 可 以 采用 不 确定 度 区 间 的 中 点 值 重 现 这 些 系数 的 值 。 重 现 结果 如 图 8-25 
所 示 。 

任何 时 候 都 可 以 中 止 解码 过 程 , 得 到 原 输入 系数 的 相对 粗略 的 重 现 值 。 图 8-26 所 示 为 当 解 码 
器 只 接收 到 Dos So Di Sio DUR S 的 前 10 位 时 的 重 现 结果 。 没 有 经 过 最 后 一 次 副 扫描 改进 
的 系数 与 那些 经 过 改进 的 系数 相 比 ， 好 像 对 它们 的 量化 使 用 的 是 一 个 粗 粒度 的 量化 器 。 

实际 上 ， 这 些 系数 的 重 现 值 正 是 前 一 次 扫描 中 不 确定 度 区 间 的 中 点 值 。 图 中 带 有 深 色 灰 底 的 
系数 是 那些 经 过 改进 的 系数 ， 而 带 有 浅 色 灰 底 的 是 没有 经 过 改进 的 系数 。 很 难看 出 解码 过 程 是 在 
什么 地 方 结束 的 ， 这 大 大 消除 了 重 现 过 程 中 所 包含 的 视觉 假象 。 
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图 8-25 ”由 第 一 个 主 扫描 和 副 图 8-26 FHDo. Sos Ds Six DA 
扫描 重 现 的 变换 系数 及 So 的 前 10 位 重 现 的 变换 系数 
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89 ”层次 树 的 集合 划分 

层次 树 的 集合 划分 (Set Partitioning in Hierarchical Trees, SPIHT) 是 EZW 算法 的 一 种 革命 性 
扩展 。 基 于 EZW 的 基本 原理 ， 包 括 对 变换 后 系数 进行 部 分 排序 ， 细 分 位 的 有 序 位 平面 传输 和 利 
用 变换 后 的 小 波 图 像 的 自 相似 性 ，SPIHT 算法 通过 改变 系数 子 集 划 分 和 细 分 信息 传送 的 方法 ， 大 
大 地 提高 了 处 理 器 的 性 能 。 

SPIHT 位 流 的 一 个 独特 的 性 质 就 是 它 的 紧密 性 。SPIHT 算法 的 结果 位 流 紧 竣 到 其 通过 焕 编 码 
器 时 ， 即 使 经 过 大 量 的 计算 也 只 能 产生 边际 压缩 增益 。 因 此 ， 没 有 编 码 器 或 者 只 有 一 个 简单 的 
无 专利 的 赫 夫 受 编 码 器 ， 也 可 以 实现 快速 的 SPIHT 编码 器 。 

SPIHT 算法 的 另 一 个 特征 是 不 用 给 解码 器 传输 排序 信息 。 解 码 器 会 重新 生成 编码 器 的 执行 路 
径 ， 从 而 恢复 排序 信息 。 这 样 做 的 一 个 好 处 是 编码 器 和 解码 器 的 执行 时 间 差 不 多 ， 这 一 点 是 其 他 
编码 方法 很 难 实现 的 。Said 和 Peariman[12] 对 这 种 算法 给 出 了 详细 的 介绍 。 


8.10 ”进一步 探索 


Sayood[14] 在 以 组 织 良 好 和 易 懂 的 方式 进行 有 损 压 缩 方 面 做 了 大 量 研究 。 

Gersho 和 Gray[15] 对 量化 ， 尤 其 是 矢量 量化 进行 了 全 面 的 探讨 。 除 了 基本 理论 之 外 ， 该 书 还 
全 面 介 绍 了 已 有 的 VQ 方法 。 

Gonzales 和 Woods[7] 讨 论 的 是 数学 变换 和 图 像 压缩 ， 对 图 像 处 理 领 域 的 算法 进行 了 浅显 易 懂 
的 解释 。 

很 多 有 损 压 缩 的 数学 基础 是 随机 过 程 (stochastic process), Stark 和 Woods[16] 是 介绍 这 一 主 
题 的 很 好 的 教材 。 

最 后 ，Mallat[5] 是 一 本 关于 小 波 的 书 ， 它 比较 偏重 理论 。 

本 书 网 站 上 的 本 章 的 Further Exploration 目录 下 的 链接 有 : 

。 一 个 在 线 的 基于 图 形 的 小 波 变换 演示 。 其 中 包括 两 个 程序 ， 一 个 是 关于 一 维 小 波 变换 的 演 
示 ， 男 一 个 是 关于 二 维 小 波 变换 的 演示 。 在 一 维 变换 的 演示 程序 中 ， 你 可 以 任意 画 出 要 变 
换 的 曲线 。 
Theory of Data Compression 〈 图 像 压 缩 理论 ) 网 站 ， 内 容 包 括 有 损 数 据 压 缩 和 无 损 数 据 压 
248 缩 的 基本 理论 。 从 这 里 还 可 以 下 载 香农 在 1948 年 发 表 的 论文 。 

e comp.compression 和 comp.compression.research 新 闻 组 的 FAQ。 它 回答 了 大 

部 分 关于 小 波 理论 和 数据 压缩 的 常见 问题 。 
一 系列 关于 标量 量化 和 矢量 量化 的 幻灯 片 , 这 些 幻 灯 片 来 自 Delft 大 学 开设 的 信息 理论 课程 。 
一 篇 很 优秀 的 文章 Image Compression— from DCT to Wavelets: A Review。 
一 些 关 于 量化 的 资料 和 源 代码 。 


8.11 练习 


1， 假 设 现 有 一 个 无 界 的 数据 源 ， 我 们 希望 使 用 M 位 的 中 宽 型 均匀 量化 器 来 量化 它 ， 请 给 出 步 长 
为 1 时 的 总 失真 量 。 
2. 假设 一 个 均匀 量化 器 的 域 为 [-bx ,bu ] ， 我 们 定义 其 装载 分 数 为 


ya 
oO 


其 中 上 为 源 的 标准 差 。 写 一 段 用 4 位 均匀 量化 器 量化 一 个 高 斯 分 布 源 的 简单 程序 ， 高 斯 分 布 的 


Ww 


wn 


a 


N 


Oo 


O 


.假设 有 一 个 光源 照射 下 的 颜色 均匀 的 球 ， 其 阴影 沿 着 球 的 表面 光 
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均值 为 0， 方 差 为 一 个 单位 。 图 示 出 此 装载 分 数 的 SNR， 并 从 图 上 估计 使 产生 的 失真 为 最 小 的 
最 优 步 长 值 。 


. * 假 设 输入 源 服 从 均值 为 0， 方差 为 一 个 单位 的 高 斯 分 布 ， 也 就 是 其 概率 密度 函数 为 


fx(x)= m” (8.66) 
我 们 希望 找到 一 个 4 级 Lloyd-Max 量化 器 。 令 y; =[y?, y] bi =[b?,…,b?]， 初 始 重 现 级 
设置 为 yo = [-2,-112] ， 源 是 无 界 的 ， 因 而 其 两 个 外 边界 为 +oo 和 -oo 。 

按照 本 章 介 绍 的 Lloyd-Max 算法 , 其 他 边界 值 为 重 现 值 的 中 点 ,这 样 bo =[—-00,-1.5,0,1.5,+00] 。 
使 用 式 (8.13) 对 ;= 1 再 进行 一 次 欠 代 ， 利 用 数值 积分 得 出 六 、 交 、 交 、 妆 ， 并 且 计算 出 放 
和 Yo 的 方差 。 

迭代 过 程 继续 进行 , 直到 相 邻 重 现 级 的 估计 值 的 方差 低 于 某 一 设 定 的 阔 值 e。 写 一 段 程序 来 实 
现 如 上 所 述 的 Lloyd-Max 量化 器 。 


.如 果 一 个 二 维 DCT 的 块 大 小 为 8x8 ， 只 用 其 DC 分 量 来 产生 一 个 草图 ， 原 始 像素 的 哪些 部 分 


会 被 使 用 到 ? 


， 当 块 的 大 小 为 8 时，DCT 的 定义 由 式 (8.17) 给 出 。 


(a) 对 于 灰 度 范围 是 0~ 255 的 8x8 图 片 ，DCT 系数 的 最 大 值 可 能 是 多 少 ， 这 种 情况 发 生 在 那 
张 输入 图 片 下 ? (给 出 这 种 图 片 所 有 的 DCT 系数 。) 

Cb) 如 果 对 整 张 图 片 都 减 去 一 个 固定 值 128， 再 进行 DCT, 会 对 DCT 值 F[2.3] 有 什么 样 的 影响 ? 

(co) 为 什么 要 进行 这 一 减法 运算 ? 这 样 做 会 影响 到 对 图 像 编 码 所 需 的 位 数 吗 ? 

(d) 在 IDCT 中 有 没有 可 能 将 这 一 减法 运算 转化 回来 ? 如 果 可 能 的 话 ， 应 怎么 做 ? 


. 利用 三 维 DCT 可 以 在 视频 流 中 得 到 相似 的 DCT 方案 。 假 设 视 频 中 的 色彩 分 量 是 时 刻 k 在 位 置 


心力 的 像素 fi ， 如 何 定 义 三 维 DCT 变换 ? 


滑 变 化 ， 如 图 8-27 所 示 。 

(a) 这 张 图 片 的 DCT 系数 会 是 什么 样子 ? 

Cb) 球 的 表面 如 果 是 棋盘 状 的 颜色 , 其 DCT 系数 又 会 是 什么 样子 ? 

C) 对 于 颜色 均匀 的 球 ， 请 描述 横 跨 球 的 上 边缘 与 黑色 背景 接合 
处 的 块 的 DCT 值 。 

Cd) 请 描述 一 下 横 跨 球 的 左边 缘 的 块 的 DCT 值 。 





图 8-27 单 光源 照射 下 的 球 


. Haar 小 波 的 缩放 函数 定义 如 下 


a= esta (8.67) 
~ | 0 (其 他 ) ` 


其 缩放 向 量 为 m[0]= holt] = 1/-V2 。 

Ca) 请 画 出 缩放 函数 ， 并 证 明 其 平移 9(2t) Al O(2t-1) 满足 扩展 方程 (8.56)。 由 这 些 函 数 的 组 
合 ， 得 出 完整 的 函数 9(1) 。 

Cb) Mak (8.59) 推导 出 小 波 向 量 [0] All, EHR (8.57) 推导 出 Haar 小 波 函 数 w(1) 。 


. 假设 母 函 数 y(t) 的 削减 矩 Mj 不 大 于 Mi ,将 f(t) 在 二 0 处 的 泰勒 级 数 展开 到 了 的 n 阶 导数 (也 


就 是 展开 到 剩余 误差 为 O(n+1) 阶 )。 求 将 上 面 的 泰勒 级 数 替换 到 式 (8.52) 产生 的 积分 和 ， 并 
且 证 明 结 果 的 阶 数 为 0(s"*?) 。 
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10. 


RAY FRAKES 


本 书 的 网 站 上 的 程序 wavelet_compression.c 实际 上 是 一 个 MATLAB 函数 (或 者 类 似 
的 第 四 代 语 言 )。 这 样 做 的 优点 在 于 imread 函数 可 以 读 入 许多 种 图 像 格式 ，imwrite 函数 
可 以 输出 所 需 的 类 型 。 以 所 给 的 程序 为 模板 ， 编 写 一 个 用 于 小 波 图 像 还 原 的 MATLAB 程序 ， 
有 可 能 把 小 波 的 数量 作为 一 个 函数 参数 。 


11. 使 用 MAPLE 这 样 的 符号 操作 系统 对 函数 进行 傅 里 叶 变换 将 非常 简单 。 在 MAPLE 中 ， 只 需 
调用 fourier 函数 ， 就 可 以 直接 看 到 结果 。 作 为 一 个 例子 ， 试 着 输入 下 面 的 代码 ; 
Wel nerans ); 
F := fourier(f,t,w); 
答案 应 该 是 2r6(w) 。 再 试 一 个 高 斯 型 的 : 
f := exp(-t*%2); 
F := fourier(f,t,w); 
这 次 的 结果 应 该 是 VreC” /9 ， 可 见 高 斯 型 的 傅 里 叶 变换 是 另 一 个 高 斯 型 。 
12， 定 义 小 波 函数 为 
y(t) =exp(-t"*)sin(t*), t>0 (8.68) 
函数 值 在 0 Maks). NARRATE pa, ARARE M, 都 为 0。 

13. 分 别 实现 基于 DCT 和 基于 小 波 的 图 像 编 码 器 。 设 计 用 户 界 面 ， 使 得 两 种 编码 器 的 压缩 结果 
可 以 并 排 地 显示 出 来 ， 以 便 进行 比较 。 为 了 进行 数值 上 的 比较 ， 每 幅 压缩 图 片 的 PSNR 也 应 
另外 再 加 入 一 个 滑动 条 ， 来 控制 两 个 编码 器 的 目标 码 率 。 若 改变 目标 码 率 ， 各 个 编码 器 就 即 
时 地 压缩 输入 图 像 ， 并 将 压缩 结果 立刻 显示 在 用 户 界 面 上 。 

从 质量 上 和 数值 上 比较 目标 码 率 为 4bpp、1bpp 和 0.25bpp 时 程序 的 压缩 结果 。 

14. 写 一 个 简单 的 程序 或 者 参考 本 书 的 网 站 上 的 示例 DCT 程序 sct_1D.c， 验 证 本 章 一 维 DCT 
的 例 8-2 的 结果 。 
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第 9 章 图 像 压 缩 标准 


近 几 年 以 来 ， 由 于 数字 图 像 设 备 〈 例 如 扫描 仪 、 数 码 相机 等 ) 的 飞速 发 展 ， 数 字 图 像 的 应 用 
需求 大 规模 增加 。 如 何以 数字 方式 有 效 地 处 理 和 存储 这 些 图 像 ? 这 些 需 求 大 大 促进 了 图 像 压 缩 标 
准 的 发 展 。 一 般 说 来 ， 标 准 比特 定 的 程序 或 设备 有 更 长 的 生命 力 ， 更 值得 我 们 认真 学 习 研 究 。 在 
这 一 章 里 ， 我 们 将 介绍 现 有 的 一 些 标准 ， 同 时 向 大 家 说 明 如 何 将 第 7 章 和 第 8 章 中 介绍 的 知识 应 
用 到 实际 中 。 

我 们 将 首先 讨论 在 Web 上 应 用 最 广 的 标准 JPEG 定义 ， 然 后 是 基于 小 波 的 JPEG2000 标准 。 
为 了 完整 起 见 ， 我 们 还 将 介绍 另外 的 两 个 标准 ，JPEG-LS 一 种 无 损 的 JPEG) 和 JBIG (应 用 于 二 
值 图 像 压缩 的 标准 )。 


9.1 JPEG 标准 


JPEG 是 由 联合 图 像 专家 组 (Joint Photographic Experts Group ) 开发 的 一 种 图 像 压 缩 标准 。1992 
年 ， 它 被 正式 采纳 为 国际 标准 [1]。 

JPEG 由 很 多 步骤 组 成 ， 每 一 步 都 对 压缩 有 贡献 。 我 们 将 首先 介绍 采取 每 一 步 的 动机 ， 然 后 
讨论 所 用 到 的 各 种 算法 。 


9.1.1 JPEG 图 像 压缩 的 主要 步 又 


我 们 已 经 知道 ， 数 字 图 像 f(i, j) 并 不 像 一 维 音 频 信 号 一 样 定 义 在 时 间 域 上 ， 它 定义 在 空间 域 
(spatial domain) 上 。 图 像 是 两 维 变量 i 和 j 的 函数 (或 者 表示 为 x，y)。2D DCT EX JPEG 中 ， 
的 一 步 得 到 空间 频率 域 的 频率 响应 ， 用 函数 Fu, VER. 

JPEG 是 有 损 的 图 像 压 缩 方法 。 在 JPEG 中 ，DCT 变换 的 编码 效率 基于 下 述 3 个 特性 : 

特性 1 在 图 像 区 域内 ， 有 用 的 图 像 内 容 变化 相对 缓慢 ， 也 就 是 说 ， 在 一 个 小 区 域内 〈 例 如 ， 
在 一 个 8x8 HARRA) 亮度 值 的 变换 不 会 太 频 繁 。 空 间 频 率 表 示 在 一 个 图 像 块 内 像素 值 的 变化 
次 数 。DCT 形式 化 地 表明 了 这 一 变化 ， 它 把 对 图 像 内 容 的 变化 度量 和 每 一 个 块 的 余弦 波 周 期 数 对 

特性 2 心理 学 实验 表明 ， 在 空间 域内 ， 人 类 对 高 频 分 量 损 失 的 感知 能 力 远 远 低 于 对 低频 分 
量 损失 的 感知 能 力 。 

在 JPEG 中 应 用 DCT 主要 是 为 了 在 减少 高 频 内 容 ， 同 时 更 有 效 地 将 结果 编码 为 位 串 。 我 们 用 
空间 宛 余 〈spatial redundancy) 来 说 明 在 一 张 图 像 里 很 多 信息 是 重复 的 。 例 如 ， 如 果 一 个 像素 是 
红色 ， 那 么 与 它 临 近 的 像素 也 很 有 可 能 是 红色 。 正 如 特性 2 所 表明 的 ，DCT 的 低频 分 量 系数 非常 
重要 。 因 此 ， 随 着 频率 的 增加 ， 准 确 表示 DCT 系数 的 重要 性 随 之 降低 。 我 们 甚至 可 以 把 它 置 零 ， 
也 不 会 感知 到 很 多 信息 的 丢失 。 

显然 ， 一 个 零 串 可 以 表示 为 零 的 长 度数 ， 用 这 种 方式 ， 比 特 的 压缩 成 为 可 能 。 我 们 可 以 用 很 
少 的 数 来 表示 一 个 块 中 的 像素 ， 据 弃 一 些 和 位 置 相 关 的 信息 ， 达 到 握 弃 空间 宛 余 的 目的 。 

JPEG 可 用 于 彩色 和 灰 度 图 像 。 在 彩色 图 像 的 情况 下 〈 如 在 YIQ 或 YUV 中 )， 编 码 器 在 各 自 
的 分 量 上 工作 ， 但 使 用 相同 的 例 程 。 如 果 源 图 像 是 其 他 的 格式 ， 编 码 器 会 执行 颜色 空间 转换 ， 将 
其 转换 为 YIQ 或 YUV 空间 。 正 如 在 第 5 章 里 讨论 的 ， 色 度 图 像 (1，@ 或 U，V) 是 二 次 采样 
(subsample) fJ: JPEG 采用 4 : 2 : 0 的 方案 ， 利 用 视觉 的 下 面 一 个 特性 。 
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特性 3 人 类 对 灰 度 〈 黑 和 和 白 ) 的 视觉 敏感 度 〈 区 分 相近 空间 线 的 准确 度 ) 要 远 远 高 于 对 彩 
色 的 敏感 度 。 如 果 彩 色 发 生 很 接近 的 变化 ， 那 么 我 们 很 难 区 分 出 来 (设想 在 漫画 中 使 用 的 斑点 状 
的 墨水 )。 这 是 因为 我 们 的 眼睛 对 黑色 的 线 最 敏感 ， 并 且 我 们 的 大 脑 总 是 把 这 种 颜色 推广 开 来 。 
实际 上 ， 普 通 的 电视 就 是 利用 这 个 原理 ， 总 是 传播 较 多 的 灰 度 信息 ， 较 少 的 颜色 信息 。 254 

当 我 们 浏览 JPEG 图 片 时 ，3 个 被 压缩 的 分 量 独立 地 被 解码 然后 合并 起 来 。 在 颜色 通道 ， 每 
一 个 像素 首先 被 扩大 为 一 个 2x2 的 块 。 为 了 满足 普遍 性 ， 我 们 选用 其 中 的 一 个 分 量 〈 例 如 ， 了 图 
像 ) 来 描述 压缩 算法 。 

图 9-1 给 出 了 一 个 JPEG 编码 器 的 示意 图 。 如 果 我 们 逆 着 箭头 ， 就 得 到 一 个 JPEG 的 解码 器 。 
JPEG 的 编码 包括 以 下 一 些 主要 步骤 : 

。 把 RGB 转换 为 YIQ 或 YUV， 并 且 二 次 采样 。 

。 对 图 像 块 进行 DCT 变换 。 

。 进行 量化 。 

。 进行 Z 编 序 和 游 长 编码 。 

。 进行 粹 编码 。 


YIQ 或 YUV 











9-1 JPEG 编码 器 的 模块 图 

1. 图像 块 的 DCT 变换 

每 一 个 图 像 被 划分 为 8x8 的 块 。 将 2D DCT 变换 (sh (8.17)) 应 用 到 每 一 个 块 图 像 f(i, J), 
得 到 相应 的 输出 函数 一 一 每 个 块 的 DCT 变换 的 系数 Flu, v)。JPEG 中 图 像 块 大 小 的 选择 是 由 委员 
经 过 仔细 权衡 后 确定 的 , 因为 大 于 8 的 数值 会 使 图 像 在 低频 处 的 效果 更 好 , 但 使 用 8 能 使 DCT( 及 

CT) 变换 的 计算 速度 更 快 。 

使 用 “ 块 ” 这 种 方式 ， 会 使 得 某 个 块 与 临近 的 块 隔离 开 来 。 这 就 是 为 什么 当 我 们 采用 比较 高 
KERER, JPEG 图 像 看 起 来 不 够 连贯 ,甚至 能 看 到 一 个 个 的 块 (事实 上 消除 这 种 现象 是 研究 者 
们 的 一 个 重要 工作 )。 

要 计算 一 个 特定 的 Fu, v)， 我 们 选择 图 8-9 的 基本 图 像 和 相应 的 w、v， 并 且 利 用 式 (8.17) 
推导 频率 响应 函数 Flu, v)。 

2. $t 

JPEG 中 量化 的 目标 是 减少 压缩 图 像 所 需要 的 位 数 [2]。 它 由 每 个 频率 除 以 一 个 整数 ， 然 后 取 
整 得 到 ; 
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Peay) roma Fee) (9.1) 
Q(u,v) 
Hh, Flu) 表示 DCT 系数 ，Q(u,v) SBM (quantization matrix), F(u,v) 表示 量化 后 的 
DCT #4, JPEG HA É JE a h EH Bla Le BE 

适用 于 亮度 和 色 度 图 的 8x8 量化 矩阵 Q(u,v) 中 的 默认 值 见 表 9-1 和 表 9-2。 这 些 值 是 从 心理 
学 的 研究 结果 中 得 来 的 ， 能 够 得 到 最 大 的 压缩 率 ， 同 时 能 使 JPEG 图 片 的 感知 损失 最 小 。 接 下 来 
的 结论 就 显然 易 见 了 : 

。 由 于 Qu, v) 中 的 值 都 相对 较 大 ,所 以 户 (w,v) 的 值 的 大 小 和 变化 都 远 远 小 于 F(u,v) 。 在 后 面 

我 们 将 会 看 到 Fu,v) 能 用 很 少 的 位 编码 。 量 化 是 JPEG 压缩 中 产生 信息 丢失 的 主要 原因 。 
。 每 一 个 Q(u,v) 表 都 在 右 下 角 置 较 大 的 值 。 这 样 做 的 目的 在 于 丢弃 更 多 的 高 频 分 量 , 特性 1 


和 特性 2 都 说 明了 这 样 做 的 好 处 。 
表 9-1 亮度 量化 表 表 9-2 色 度 量化 表 
16 11 10 16 24 40 51 61 17 18 24 47 99 99 99 99 
12 12 14 19 26 58 60 55 18 21 26 66 99 99 99 99 
14 13 16 24 40 57 69 56 24 26 56 99 99 99 99 99 
14 17 22 29 51 87 80 62 47 66 99 99 99 99 99 99 
18 22 37 56 68 109 103 77 99 99 99 99 99 99 99 99 
24 35 55 64 81 104 113 92 99 99 99 99 99 99 99 99 
49 64 78 87 103 121 120 10i 99 99 99 99 99 99 99 99 
72 92 95 98 112 100 103 99 99 99 99 99 99 99 99 99 


我 们 可 以 给 Qu, v) 矩阵 乘 以 比例 值 来 改变 压缩 率 。 实 际 上 ， 每 一 个 JPEG 应 用 提供 给 用 户 的 
MERT (quality factor)， 本 质 上 都 是 和 缩放 因子 线性 联系 在 一 起 的 。JPEG 也 允许 指定 定制 量化 
表 并 放 在 头 部 。 我 们 可 以 设 定 特殊 的 值 ， 例 如 C=2 或 C=100， 来 观察 C 值 的 改变 所 带 来 的 直观 
影响 。 

图 9-2 和 9-3 表明 了 对 测试 图 像 Lena 进行 JPEG 编码 和 解码 的 结果 。 图 中 仅 显 示 亮 度 图 (Y) 
的 结果 。 量 化 后 的 无 损 压 缩 步骤 就 不 再 歼 述 ， 因 为 它们 对 JPEG 的 图 像 质量 没 有 影响 。 结 果 说 明 
了 对 相对 平滑 和 相对 粗糙 的 块 分 别 进 行 压缩 和 解压 后 的 结果 。 

假设 f(i, 站 代表 从 图 像 中 截取 的 一 个 8x8 的 块 ，F(w,v) 是 DCT 变换 系数 ， 户 (ww 是 量化 后 
的 DCT RR. F(u,v) 表示 未 量化 的 DCT AR, RU Ou, v 得 到 ，f(i, 让 是 重 现 后 得 到 的 图 像 块 。 
在 图 9-2 和 图 9-3 最 后 一 行 的 误差 表明 了 JPEG 压缩 的 质量 ， 特 别 是 压缩 后 的 损失 。 

在 图 9-2 H, 选择 一 个 亮度 变化 平滑 的 图 像 块 (图 中 用 黑 框 表示 )。 块 的 左边 稍 亮 , AE 
正如 所 期 望 的 那样 ， 除 了 DC 和 前 几 个 AC 分 量 〈 用 来 表示 空间 低频 分 量 )， 大 部 分 的 DCT 系数 
F(u,v) 的 幅 值 都 很 小 。 这 是 因为 在 这 一 个 块 中 的 像素 值 所 含 空间 高 频 分 量 的 改变 较 小 的 缘故 。 

另 一 个 缩小 处 理 规模 的 办 法 是 整齐 化 。8 位 亮度 值 f(i, j) 的 取 值 范围 是 [0, 255]。 在 JPEG 的 
实现 中 ， 每 一 个 了 值 首 先 都 被 减 去 128。 

这 里 的 主要 思想 是 使 了 分 量 成 为 0 均值 图 像 ， 这 和 色 度 图 相 类 似 。 结 果 ， 我 们 并 没有 在 为 均 
值 编码 的 过 程 中 损失 任何 的 位 (例如 一 个 取 值 范围 为 120~135 的 8x8 块 )。0 均值 处 理 后 的 图 像 不 
会 影响 输出 中 的 AC 系数 ， 它 改变 的 只 是 DC 系数 。 
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Lena Y 图 像 中 的 一 个 8x8 的 块 


200 202 189 188 189 175 175 175 515 65 -12 4 1 2 -8 5 
200 203 198 188 189 182 178 175 -16 3 2 0 0-1ll -2 3 
203 200 200 195 200 187 185 175 -12 6 11-1 3 0 1 -2 
200 200 200 200 197 187 187 187 -8 3 -4 2 -2 -3 -5 -2 
200 205 200 200 195 188 187 175 0 -2 7-5 4 0 -1 -4 
200 200 200 200 200 190 187 175 0-3 -10 4 1 -1 0 
205 200 199 200 191 187 187 175 3-2 -3 3 3 -1 -1 -3 
210 200 200 200 188 185 187 186 -2 5 -2 4 -2 2 -3 
fij) F(u, v) 
2 Ea 0 0 0 0 0 512 66-10 0 0 0 0 0 
=A 0 0 0 0 0 0 0 “12 0 0 0 0 6 0 0 
= 0 1 0 0 0 0 0 -14 0160000 0 
-1 0 0 0 0 0 0 0 -14 0 0 0 0 0 0 0 
00 0 0 0 0 0 0 00 00 0 0 0 0 
00 8 GO 8 80 0 0 00 000 0 0 0 
00 00 0 0 0 0 00 000 0 0 0 
00 0 0 0 0 0 0 00 000 0 0 0 
F(u, v) F(u, v) 
199 196 191 186 182 178 177 176 1 6-2 2 7 -3 -2 -l 
201 199 196 192 188 183 180 178 -1 4 2-4 1 -1 -2 -3 
203 203 202 200 195 189 183 180 0 -3 -2 -5 5 -2 2 -5 
202 203 204 203 198 191 183 179 -2 -3 -4 -3 -1 -4 4 8 
200 201 202 201 196 189 182 177 0 4 -2 -1 -1 -1 #5 -2 
200 200 199 197 192 186 181 177 0 0 1 3 8 4 6-2 
204 202 199 195 190 186 183 181 12 0 5 1 1 4 -6 
207 204 200 194 190 187 185 184 34 0 6 -2 -2 2 2 
fia ei, =f, -Fij 


9-2 平滑 图 像 块 的 JPEG 压缩 
在 图 9-3 中 ， 我 们 选择 了 一 个 亮度 变化 剧烈 的 图 像 块 。AC 分 量具 有 很 大 的 幅 值 (尤其 是 u 
v 值 都 很 大 的 右 下 角 )。 可 以 看 出 , 此 时 的 误差 q(i, j) 大 于 图 9-2 一 一 如 果 图 像 变化 较为 剧烈 , JPEG 
会 引起 较 大 的 损失 。 
3. Si Hs Fh OS fk 
上 面 我 们 介绍 了 JPEG 压缩 的 两 个 主要 步骤 DCT 变换 和 量化 。 正 如 图 9-1 的 流程 图 所 示 ， 
下 一 步 工作 是 对 量化 后 的 DCT REGITA (entropy coding )。 这 一 步 不 会 造成 数据 的 损失 。 


不 过 , 在 烂 编 码 步骤 的 准备 过 程 中 , DC 系数 和 AC 系数 的 处 理 是 不 同 的 。AC 分 量 进行 游 长 编码 ， 
DC 分 量 采 用 DPCM 编码 。 
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ma, 
po! 
Lena Y 图 像 中 的 另 一 个 8x8 的 块 
70 70 100 70 87 87 150 187 -80 -40 89-73 44 32 53 -3 
85 100 96 79 87154 87113 -135 -59 -26 6 14 -3-13 -28 
100 85116 79 70 87 86 196 47 -76 66 -3 -108 -78 33 59 
136 69 87200 79 71117 96 -2 10-18 0 33 11-21 1 
161 70 87 200 103 71 96 113 -1 -9-22 8 32 65-36 -l 
161 123 147 133 113 113 85 161 5 -20 28-46 3 24-30 24 
146 147 175 100 103 103 163 187 6 -20 37-28 12-35 33 17 
156 146 189 70 113 161 163 197 -5 -23 33-30 17 -5 -4 20 
fj) F(u, v) 
Bg BSE A -80 -44 90-80 48 40 51 0 
li te a ae Bs -132 -60 -28 0 26 0 0-55 
ae d oa 42 -78 64 0-120 -57 0 56 
E oie oS 0 17-22 0 5 0 0 0 
a a ee 0 0-37 0 0109 0 0 
anid © bo 6 0 -35 55-64 0 0 0 0 
0000000 0 0: W, 0 ee ee 0 DO 
0000000 0 MR RE he OF O 
F(u, v) F(u, v) 


70 60 106 94 62 103 146 176 0 10 -6-24 25-16 4 ll 
85 101 85 75 102 127 93 144 0 -1 11 4 -15 27 -6 -31 
98 99 92102 74 98 89 167 2 -14 24-23 -4-11 -3 29 
4 


132 53 111 180 55 70 106 145 16 -24 20 24 1 11 -49 

173 57 114 207 111 89 84 90 -12 13 -27 -7 -8-18 12 23 

164 123 131 135 133 92 85 162 -3 0 16 -2 -20 21 0 -i 

141 159 169 73 106 101 149 224 5 -12 6 27 -3 -2 14 -37 

150 141 195 79 107 147 210 153 6 5 -6 -9 6 14-47 44 
fia ei, =f -fi,) 


9-3 ”纹理 图 像 块 的 JPEG 压缩 


4. AC 系数 的 游 长 编码 

大 家 会 注意 到 在 图 9-2 +F, WAR, Fv) 中 出 现 了 很 多 零 。 游 长 编码 (Run-Length 
Coding, RLC; 或 Run-Length Encoding, RLE) TJ WHE Ê (u,v) 的 值 
变换 为 集合 {#-zero-to-skip，next non-zero value}。 我 们 用 如 下 地 址 对 
应 方法 ， 游 长 编码 将 更 有 效 ， 可 能 得 到 一 长 串 0: FA ZFA 8x8 
的 矩阵 Fu,v) 变 为 一 个 64 个 元 素 的 向 量 ， 如 图 9-4 所 示 。 大 部 分 的 
图 像 块 都 有 较 小 的 空间 高 频 分 量 ,， 量 化 后 都 变 成 了 0。 因 此 z FAH 
很 有 可 能 碰 到 一 长 串 0。 例 如 ， 在 图 9-2, Fu,v) 被 转换 为 : 

(32, 6, -1,-1, 0, -1, 0, 0, 0, —1, 0, 0, 1, 0, 0, ---,0) 


中 间 有 3 个 0 串 ， 结 尾 处 有 一 个 长 度 为 51 的 0 R. 图 9-4 JPEG 中 的 民 形 扫描 
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在 RLC PRB, FAC 系数 中 的 每 个 0 串 用 {RUNLENGTH，VALUE]} 的 数 对 方式 表示 值 ， 
其 中 RUNLENGTH 表示 串 里 的 0 的 数目 ，VALUE 表示 下 一 个 非 0 系数。 为 了 尽量 节省 位 数 ， 一 个 
特殊 的 数字 对 〈0，0) 紧 跟 着 最 后 一 个 非 0 的 AC 系数 ， 表 示 到 达到 了 “ 块 ”的 结尾 。 在 上 面 提 
到 的 例子 里 ， 不 考虑 前 几 个 (DC) 分 量 ， 我 们 将 得 到 : 

(0,6)(0,—1) (0,-1) (1,-1) (3, -1) (2,1) (0,0) 

5. DC 系数 的 DPCM 编码 

DC 系数 和 AC 系数 分 开 编 码 。 每 一 个 8x8 的 图 像 块 只 有 一 个 DC 系数 。DC 系数 表示 每 个 图 
像 块 的 平均 亮度 ， 所 以 不 同 的 块 DC 系数 会 很 大 ， 并 且 不 同 。 但 正如 特征 1 所 提 到 的 ， 在 奖 近 的 
块 之 间 ，DC 系数 不 会 产生 特别 大 的 变化 。 这 就 使 得 可 以 采用 理想 的 DPCM 编码 方式 对 DC 系数 
进行 编码 。 

如 果 前 5 个 图 像 块 的 DC 系数 是 150、155、149、152、144， 那 么 DPCM 编码 后 得 到 150、5、 
-6、3、--8〔 假 设 第 i 个 块 的 预测 器 为 d; = DC -DC ， 并 且 do = DCo )。 我 们 期 望 DPCM 编码 
后 的 幅 值 较 小 且 变 化 不 是 很 大 ， 这 将 为 后 面 的 炉 编码 步骤 带 来 很 大 便利 。 

值得 注意 的 是 , AC 系数 的 游 长 编码 需要 对 每 一 个 块 单独 进行 , 而 JPEG 中 的 DC 系数 的 DPCM 
编码 对 整个 图 像 实 施 一 次 即 可 完成 。 

6. Re 

DC 和 AC RART eS. Fi, BATT RA CBI baseline®), BOT 
法 采用 赫 夫 曼 编 码 ， 而 且 支 持 8 位 像素 原 图 (或 彩色 图 像 分 量 )。 

下 面 我 们 将 介绍 两 种 炳 编码 方案 ， 对 DC 系数 使 用 赫 夫 曼 编码 的 变 体 ，AC 系数 的 编码 方案 
稍 有 不 同 。 

CL) DC 系数 的 赫 夫 曼 编 码 

每 一 个 DC 系数 经 过 DPCM 编码 后 可 以 用 (SIZE，AMPLITUDE) 表示 ，SIZE 表示 需要 多 
少 位 来 表示 DC 系数 ,AMPLITUDE 表示 实际 使 用 的 位 数 。 

表 9-3 表示 了 和 不 同 AMPLITUDE 对 应 的 SIZE. 注 ROI 基本 炳 编码 细节 一 一 大 小 分 类 
意 , 表示 DPCM 的 值 需要 超过 8 位 , 而 且 DPCM 的 值 有 
可 能 为 负 。 我 们 用 一 个 编码 的 取 反 来 表示 负数 ， 例 如 ， 1 
二 进 制 编码 10 表示 2，01 表示 -2，11 表示 3，00 表示 2 
-3， 依 此 类 推 。 在 我 们 所 提 到 的 例子 中 ， 码 字 150, 5, 3 
-6、3、-8 将 会 被 表示 为 4 

(8, 10010110) ,(3, 101) ,(3, 001), (2, 11), (4, 0111) 


在 JPEG 中 , 对 SIZE 进行 赫 夫 曼 编码 ,成 为 长 度 可 
变 的 编码 。 也 就 是 说 ， 如 果 ST2E 2 出 现 过 于 频繁 , 我 们 就 有 可 能 用 一 个 位 (0 或 1) 来 表示 SIZE 
2。 一 般 来 说 ， 较 小 的 SIZE 值 出 现 的 次 数 比较 频繁 ， 因 为 它们 的 炉 较 低 ， 所 以 ， 赫 夫 曼 编码 可 以 
带 来 压缩 的 效果 。 编 码 后 ， 定 制 的 赫 夫 曼 编 码 表 可 以 保存 在 JPEG 图 像 的 头 部 ， 否 则 要 使 用 默认 
的 赫 夫 曼 编 码 表 。 

另外 ，AMPLITUDE 不 进行 顽 夫 曼 编 码 。 因 为 它 的 值 变 化 范围 较 大 ， 进 行 赫 夫 曼 编 码 得 不 到 
好 的 效果 。 

(2) AC 系数 的 赫 夫 曼 编 码 

上 面 我 们 提 到 ，AC 系数 采用 游 长 编码 ， 并 且 表示 为 一 对 数字 CRUNLENGTH, VALUE). {8 








-1,1 
3,-2,2,3 

-7..—4, 4.7 

~15..—8,8..15 





—1023..~512,512..1023 


O JPEG MSS MRE RES RS, — SAA RTAIE. CEER 8 位 和 12 位 的 像素 长 度 。 
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是 ， 在 实际 的 JPEG 实现 中 ， 和 DC 系数 一 样 ，VALUE 用 SIZE 和 AMPLITUDE 的 方式 表示 。 为 
了 节省 位 数 , RUNLENGTH 和 SIZE 分 别 用 4 位 来 表示 , 并 且 整 合 为 一 字 节 一 一 我 们 称 为 Symbol 1. 
Symbol 2 是 AMPLITUDE 值 ， 它 的 位 数 用 SIZE 表示 : 

Symbol 1: (RUNLENGTH, SIZE) 

Symbol 2: (AMPLITUDE) 

4 位 的 RUNLENGTH 仅 能 表示 长 度 为 0~15 的 零 串 。 有 时 候 ，0 串 的 长 度 会 超过 15， 这 时 候 ， 
对 Symbol 1 使 用 特殊 的 扩展 编码 (15，0)。 在 最 坏 的 情况 下 ， 在 Symbol 1 结束 前 需要 3 个 连续 的 
(15，0)， 这 时 候 ，RUNLENGTH 将 是 完全 的 实际 游 长 。 和 DC 编码 类 似 ，Symbol 1 KARR SH 
码 ， 而 Symbol 2 不 采用 。 


9.1.2 JPEG 模式 


JPEG 标准 支持 多 种 模式 ， 一 些 常用 的 模式 有 : 

。 顺序 模式 

。 渐进 模式 

。 分 级 模式 

。 无 损 模式 

L MPRA 

这 是 默认 的 JPEG 模式 。 对 灰 度 图 或 彩色 图 像 分 量 进行 从 左 到 右 、 从 上 到 下 的 扫描 并 编码 。 
在 我 们 的 讨论 中 ,一直 采用 这 种 模式 。Motion JPEG 视频 就 是 对 每 一 帧 图 像 采 用 基本 的 顺序 JPEG 
编码 。 

2， 渐 进 模式 

渐进 式 JPEG 首先 快速 传送 低 质 量 的 图 像 ， 接 着 传送 高 质量 的 图 像 。 这 种 模式 在 网 页 浏览 中 
得 到 广泛 使 用 。 当 网 络 带宽 不 是 很 高 时 ， 这 种 多 次 扫描 图 像 的 方法 非常 有 用 。 在 渐进 模式 里 ， 前 
几 次 扫描 只 传递 很 少 的 位 数 和 粗糙 的 图 像 轮 廊 。 随 着 扫描 次 数 的 增加 ， 会 接收 到 更 多 的 数据 ， 图 
像 画 质 也 不 断 提 高 。 这 种 做 法 的 好 处 是 用 户 可 以 通过 前 几 次 扫描 接收 到 图 像 信息 选择 是 否 再 继续 
接收 数据 以 提高 画面 质量 。 

渐进 式 JPEG 通过 以 下 两 种 方式 实现 。 主 要 的 步骤 (DCT、 量 化 等 ) 和 顺序 模式 相同 。 

(1) 光谱 选择 

下 列 方案 利用 DCT 系数 的 光谱 〈 空 间 频谱 ) 特性 ， 高 等 级 的 AC 分 量 仅 提供 细节 信息 。 

第 1 次 扫描 : 对 DC 和 前 几 个 AC 分 量 编码 ， 例 如 AC1、AC2。 

第 2 次 扫描 : 对 更 多 的 AC 分 量 编码 ， 例 如 AC3、AC4、AC5。 


第 上 次 扫描 : 对 最 后 的 几 个 AC 分 量 编码 ， 例 如 AC61、AC62、AC63。 

(2) 连续 近似 

和 渐进 编码 光谱 带 不 同 ， 连 续 近 似 方法 将 所 有 的 DCT 系数 同时 编码 ， 最 重要 位 (Most 
Significant Bit, MSB) 最 先 编码 。 

第 1 次 扫描 : 对 前 几 个 MSB 编码 ， 例 如 Bits7, 6. 5 和 4。 

第 2 次 扫描 : 对 重要 程度 稍 有 降低 的 比特 编码 ， 例 如 Bit 3。 


第 m 次 扫描 : 对 最 不 重要 的 位 (LSB) 编码 ， 如 Bit0。 
3. 分 级 模式 


顾名思义 ， 分 级 JPEG 对 处 于 不 同 分 辨 率 层次 中 的 图 像 进 行 编码 。 低 分 辩 率 的 编码 图 像 是 通 
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过 低 通 滤波 器 压缩 后 的 图 像 ， 更 高 分 辨 率 的 图 像 提 供 更 多 的 细节 信息 〈 和 低 分 辨 率 图 像 提 供 的 不 
同 )。 和 渐进 JPEG 图 像 类 似 ， 分 级 JPEG 可 以 通过 多 次 扫描 ， 渐 进 改 善 图 像 质量 来 传送 。 
图 9-5 给 出 了 一 个 分 为 3 级 的 JPEG 编码 器 和 解码 器 (两 者 用 图 中 的 虚线 分 隔 )。 


及 Fa 1 Ía 











图 9-5 分 级 JPEG 的 块 结构 图 263 
算法 9-1 三 级 JPEG 编码 器 

1) 降低 图 像 分 辨 率 。 在 输入 图 像 六 (例如 512x512) 的 每 一 维 上 除 以 2 得 到 访 (256x256)， 从 而 降低 输入 图 像 分 辨 率 。 重 复 

这 一 步骤 得 到 f (128x128). 

2) 压缩 低 分 辨 率 图 像 ao X 采用 其 他 的 JPEG 方法 (如 顺序 、 渐 进 ) 编码 ， 得 到 Fa 

3) 压缩 差 值 图 像 只。 

Ca) 对 Fs 解 码 得 到 疡 。 用 某 种 插 补 方法 扩展 A. BBA SRR ECA) 。 

(b》 对 差 值 dz = fo — EC fs) 用 某 种 JPEG 方法 〈 例 如 顺序 或 渐进 ) 编码 得 到 Da 

4) 压缩 差 值 图 像 d. 

(a) 对 Ds 解码 得 到 do, 把 它 加 到 EF) 上 得 到 户 = E( 产 )+ 吃 ， 这 是 对 记 压 缩 又 解 下 后 得 到 的 一 个 版 本 。 

(b) 对 差 值 di = f -E( fo) 用 某 种 JPEG 方法 〈 如 顺序 ， 渐 进 )》 编码 得 到 D1。 


算法 9-2 三 层 分 级 JPEG 解码 器 
D 对 低 分 辨 率 图像 厂 解 压缩 。 使 用 和 编码 器 相同 的 JPEG 方法 解压 ,得 到 A 。 
2) 还 原 中 间 分 辩 率 图 像 A. AI Efi) +d, B8 f 
3) 还 原 原 始 分 辩 率 图 像 F 。 应 用 Cf.) +d, 得 到 了。 


需要 指出 的 是 , 在 编码 器 的 步骤 3 中 , 差 值 4 不 是 用 公式 h-E 得 到 , 而 是 用 h-E) 
得 到 。 使 用 户 是 有 代价 的 ， 因 为 在 编码 器 里 引入 了 一 个 额外 的 解码 步骤 ， 如 图 所 示 。 

这 确实 有 必要 吗 ? 有 必要 。 因 为 解码 器 端 不 可 能 看 到 原始 的 有 。 在 解码 器 端的 还 原 步骤 里 只 
可 能 使 用 户 得 到 户 = EL)+d 。 因 为 压缩 彤 使 用 有 损 的 JPEG 压缩 方法 时 ， fae fy, POTS 
器 就 必须 在 公式 dz = f ~ E(f4) 中 采用 及 来 避免 在 解码 时 产生 不 必要 的 错误 。 这 种 编码 器 /解码 器 
步骤 在 很 多 压缩 方案 里 使 用 。 实 际 上 ， 我 们 在 6.3.5 节 里 已 经 看 到 。 之 所 以 要 这 样 做 ， 是 因为 解 
码 器 只 能 访问 被 编码 后 的 数据 ， 不 能 访问 原始 数据 。 

同样 ， 在 编码 器 的 步骤 4 里 ， 贝 为 上 和 E( 户 ) 的 差 值 ， 而 不 是 与 EC) 的 差 值 。 
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4. 无 损 模 式 
无 损 JPEG 是 JPEG 的 一 种 特殊 情况 ， 它 没有 图 像 质量 的 损失 。 正 如 在 第 7 章 里 讨论 的 那样 ， 
它 只 采用 了 一 种 简单 的 微分 编码 方法 ， 不 涉及 任何 的 变换 编码 。 一 般 很 少 使 用 这 种 模式 ， 因 为 它 
的 压缩 率 远 远 低 于 其 他 的 有 损 JPEG 模式 。 但 另 一 方面 ， 它 能 满足 一 些 特殊 的 需要 ， 而 且 最 新 的 
JPEG-LS 标准 的 目标 就 是 进行 无 损 的 图 像 压缩 ( 见 9.3 节 )。 


9.1.3 JEPG 位 流 概述 
图 9-6 给 出 了 JPEG 图 像 的 分 层 结构 位 流 图 。 其 中 ， 帧 (frame〉 就 是 一 个 图 片 ， 扫 描 (scan) 

就 是 对 全 部 像素 〈 例 如 ， 红 色 分 量 ) 的 一 次 遍历 ， 段 就 是 一 组 块 ， 块 由 8x8 的 像素 组 成 。 下 面 是 
一 些 头 信息 的 例子 : 

"每 像素 的 位 数 

， 图像 的 宽 和 高 

， 分 量 数目 

"唯一 的 了 p〈 对 每 一 个 分 量 而 言 ) 

水 平 /垂直 采样 因子 (对 每 一 个 分 量 而 言 ) 

， 使 用 到 的 量化 表 (对 每 一 个 分 量 而 言 》 

“ 每 个 扫描 中 的 分 量 数 

分量 卫 〈 对 每 一 个 分 量 而 言 ) 

， 赫 夫 曼 /算术 编码 表 ( 对 每 一 个 分 量 而 言 ) 


ics [Heads em | [ea] 


[abies oie | Header [Soper | Resan [Semen | Roar | | 


[lock | Block [Bick [| 
9-6 JPEG 位 流 
9.2 JPEG 2000 标准 


AR, JPEG 标准 是 迄今 为 止 最 为 成 功 和 通用 的 图 像 格式 。 它 成 功 的 主要 原因 就 在 于 它 
的 在 相对 出 色 的 压缩 率 下 仍 有 很 好 的 输出 质量 。 然 而 ， 为 了 满足 下 一 代 图 像 应 用 的 需求 ，JPEG 
委员 会 定义 了 一 个 新 的 标准 : JPEG 2000。 
新 的 JPEG 2000 标准 [3] 不 仅 在 压缩 率 一 失真 间 进 行 了 更 好 的 权衡 ,改善 了 图 像 的 质量 ,而且 
新 增 了 现 有 JPEG 标准 所 缺乏 的 一 些 功能 。 特 别 是 ，JPEG 2000 标准 将 解决 以 下 一 些 问题 [4]: 
。 低 位 率 压缩 ”在 中 、 高 位 率 情况 下 ,目前 的 JPEG 标准 在 压缩 率 -失真 方面 有 非常 出 色 的 表 
Rh. 但 是 ， 如 果 码 率 低 于 0.25bpp， 图像 失真 就 会 变 得 无 法 接受 。 当 我 们 使 用 一 些 有 网 络 浏 
览 功能 的 常用 设备 〈 如 手表 等 ) 接收 图 像 时 ， 这 一 问题 就 很 关键 了 。 
。 无 损 和 有 损 压缩 ”目前 ， 还 没有 哪个 标准 能 够 在 一 个 位 流 中 提供 很 好 的 无 损 压缩 和 有 损 
压缩 。 
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。 大 图 像 ”新 的 标准 能 处 理 分 辩 率 超过 64Kx64K 的 图 像 而 不 会 产生 失真 。 它 能 处 理 的 图 像 上 
限 可 达 23 一 1 。 
。 单 一 的 解压 体系 结构 ”现行 的 JPEG 标准 有 44 种 模式 , 其 中 的 很 多 模式 都 是 和 某 个 应 用 有 
关 的 ， 不 能 被 大 多 数 的 JPEG 解码 器 使 用 。 
。 队 声 环 境 中 的 传输 ”新 的 标准 改善 了 在 有 噪声 环境 中 传输 的 差错 恢复 能 力 ， 例 如 在 无 线 网 
或 因特网 情况 下 。 . 
。 渐进 传输 ”新 的 标准 将 会 根据 从 低 到 高 的 码 率 提供 无 缝 质量 传输 和 有 扩展 性 的 解决 方案 。 
而 且 在 压缩 过 程 中 ， 目 标 码 率 和 重组 方案 都 不 必 考 虑 。 
。 感 兴趣 区 域 编码 ”新 的 标准 允许 指定 感 兴趣 区 域 (ROI)， 该 区 域 的 编码 质量 优 于 图 像 的 其 
他 部 分 。 例 如 ， 我 们 希望 对 人 脸 的 编码 质量 高 一 些 ， 而 周围 家 具 的 编码 质量 可 以 略 低 。 
。 计算 机 生成 的 影像 ”现行 的 标准 在 处 理 自然 图 像 时 有 很 优秀 的 表现 ， 但 处 理 计算 机 生成 的 
影像 时 却 差强人意 。 
。 复合 文档 ”新 的 标准 提供 了 元 数据 的 机 制 ， 可 以 将 额外 的 非 图 像 数 据 整 合 到 文件 里 。 举 个 
常见 的 例子 ， 当 要 同时 包括 图 像 和 文本 信息 时 ， 这 种 方法 很 有 用 。 
另外 ，JPEG 2000 能 处 理 256 路 的 信息 ， 而 现行 的 JPEG 标准 只 能 处 理 3 路 颜色 信息 。 卫 星 
图 像 就 能 提供 上 述 含有 巨大 数据 量 的 信息 。 
因此 ，JPEG 2000 适用 于 各 种 应 用 。 例 如 ， 因 特 网 、 彩 色 传 真 、 打 印 、 扫 描 、 数 字 图 像 、 遥 
感 、 移 动 应 用 、 医 学 图 像 、 数 字 图 书馆 以 及 电子 商务 等 。 这 种 方法 应 用 前 景 广阔 ， 而 且 可 以 远程 
浏览 压缩 过 的 图 像 。 
JPEG 2000 标准 有 两 种 编码 模式 ， 基 于 DCT 和 基于 小 波 变 换 。 提 供 基于 DCT 编码 模式 的 目 
的 是 为 了 能 够 向 后 兼容 现行 的 JPEG 标准 并 实现 基本 JPEG. 所 有 新 的 功能 和 改进 性 能 都 是 在 基于 
小 波 变换 模式 下 获得 的 。 266 
“9.2.1 JEPG 2000 图 像 压缩 的 主要 步骤 
JEPG 2000 中 使 用 的 主要 压缩 方法 是 带 有 优化 截断 嵌入 式 块 编码 (Embedded Block Coding 
with Optimized Truncation, EBCOT) 算 法， 该 算法 最 早 是 Taubman[5] 提 出 的 。 除 了 提高 压缩 的 
效率 外 ，EBCOT 还 产生 了 具有 许多 优秀 特点 的 位 流 ， 包 括 质量 改进 、 分 辨 率 伸缩 和 随机 访问 
(random access) 等 。 
EBCOT 的 基本 思想 是 首先 将 图 像 进行 小 波 变换 ， 生 成 子 带 LL、LH、HL、HH、 再 将 这 些 子 
带 划 分 成 小 块 ， 这 些小 块 称 为 码 块 〈code block)。 每 一 个 码 块 都 独立 编码 ， 因 而 不 会 用 到 其 他 块 
的 信息 。 
每 一 个 码 块 产生 独自 的 位 流 。 使 用 基于 块 的 编码 方案 , EBOCT 算法 改进 了 差错 恢复 。EBOCT 
算法 包括 以 下 三 个 步骤 
1) 块 编 码 和 位 流 的 生成 。 
2) 压缩 后 比例 失真 PCRD) 优化 。 
3) 层 格 式 化 及 表示 。 
1， 块 编码 和 位 流 的 生成 
由 二 维 离散 小 波 变换 生成 的 子 带 首 先 被 划分 为 32x32 或 64x64 的 小 码 块 ， 然 后 用 EBOCT H 
法 为 每 一 个 码 块 房 生成 伸缩 率 很 高 的 位 流 .Bi 对 应 的 位 流 被 独立 地 截 为 预先 定义 好 的 不 同 长 度 R? 
的 集合 ， 相 应 的 失真 度 为 D? 。 l 
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对 每 一 个 码 块 B;( 见 图 9-7), B siikl= si[ki,k2] 为 小 码 块 的 二 
HEPES, kis ky 分 别 是 行 索 引 和 列 索 引 〈 根 据 这 个 定义 ， 水 平 高 通 
TË HL 必须 转 置 ， 以 使 得 后 、 已 的 含义 和 其 他 子 带 一 致 。 这 样 转 
置 意味 着 可 以 用 同样 的 方式 对 待 HL HA LH, HH. LL 子 带 ， 同 
时 可 以 使 用 相同 的 上 下 文 模型 )。 

这 个 算法 使 用 的 无 效 区 (dead zone) 量化 器 如 图 9-8 所 示 ， 其 中 
有 两 个 单位 长 度 的 部 分 为 0。 设 vilk] e {4,1 表示 si;[k] 的 符号 ， 同 

vi[k] -sl (9.2) 
ôs, 
KH, 55 表示 包含 码 块 BRTH Bi 的 步 长 。 设 vyPIK] 表示 vi[k] 的 二 进 制 表示 的 第 p 位 ，p=0 表 
示 重 要 性 最 低 的 位 ， Bee 表示 的 最 大 值 ， 这 样 若 码 块 内 至 少 有 一 个 采样 ， 则 vp [Kk]#0 。 






































J 

TO 

SENM 
aT 

-2 + 





9-8 无 效 区 量化 器 。 无 效 量 化 区 的 长 度 是 25， 无 效 区 的 值 量化 为 0 


编码 过 程 很 类 似 于 一 个 位 平面 编码 器 ， 最 重要 的 位 vP”[k] 最 先 编码 ， 接 着 是 次 重要 的 位 
V [k] ， 依 次 进行 编码 ， 直 到 所 有 的 位 平面 编码 完毕 为 止 。 用 这 种 方式 ， 如 果 位 流 被 删 减 过 ， 
那么 码 块 中 的 一 些 采样 将 会 损失 一 个 或 多 个 的 不 是 很 重要 的 位 。 这 和 使 用 一 个 比较 粗粮 的 无 效 区 
量化 器 的 效果 相 类 似 。 

另外 ， 使 用 某 个 采样 以 前 的 编码 信息 和 与 之 临近 的 采样 的 编码 信息 也 很 重要 。 在 EBCOT 中 
通过 定义 一 个 二 值 状态 变量 c[k] 来 实现 ， 它 的 初始 值 为 0。 当 与 之 相关 的 采样 的 第 一 个 非 零 位 平 
面 vf[k]=1 已 经 被 编码 , 则 它 的 值 由 0 变 为 1。 这 个 二 值 状态 变量 称 为 采样 的 “ 权 ”(significance)。 

8.8 节 介 绍 了 一 种 数据 结构 一 一 零 树 ， 利 用 它 可 以 很 有 效 地 编码 小 波 系数 的 位 流 。 零 树 数据 结 
构 的 思想 是 把 重要 的 采样 聚 锐 在 一 起 ， 这 样 就 使 得 我 们 有 可 能 通过 对 一 个 二 进 制 标 记 (symbol) 
编码 实现 对 很 多 采样 的 处 理 。 


EBCOT 利用 了 上 面 这 个 特性 ， 但 是 为 了 提高 效率 ， 聚 类 思想 仅 用 于 相对 较 大 的 16X 16 的 子 
块 。 这 样 ， 每 一 个 码 块 又 被 划分 为 一 系列 二 维 的 子 块 B[j] 。 对 每 一 个 位 平面 ， 明 确 的 信息 最 先 被 


编码 ， 以 确认 子 块 包含 一 个 或 多 个 重要 采样 。 其 他 的 子 块 则 放 到 相应 位 平面 的 其 余 编 码 阶段 中 。 
设 o?(Bi[j]) 是 位 平面 p PPR BRUIR “ML”. 我 们 使 用 四 叉 树 对 “ 权 ” 图 进行 编码 。 通 
过 确定 带 有 叶子 节点 的 子 块 来 构造 树 ， 即 Bf[ 有 六 = Bi[j] 。 高 一 层 的 节点 用 递归 来 定义 ; 
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BI 有 j= Usop B72j+zJ,0<t<T。 树 的 根 节点 表示 整个 码 块 ，BY [0]=U)jBi{j]。 
ARTA &T 开始 ， 每 一 次 确定 一 层 的 码 块 的 “ 权 ” 直到 叶 节 点 :=0 为 止 。“ 权 ” 值 被 发 送 
到 算术 编码 器 进行 粹 编码 。 如 果 “ 权 ” 值 有 元 余 则 被 跳 过 。 如 果 发 生 下 列 情况 ， 则 判定 值 是 元 余 的 : 
。 父 节点 是 不 重要 的 。 
。 当 前 的 四 又 树 已 经 在 先前 的 位 平面 中 认为 是 重要 的 。 
。 是 同一 个 重要 的 父 节点 下 最 后 访问 的 四 又 树 ， 并 且 其 余 的 兄弟 节点 都 是 不 重要 的 。 
EBCOT 用 4 种 不 辣 的 编码 方法 为 位 平面 p 内 一 个 采样 的 新 信息 进行 编码 ， 这 4 种 方法 如 下 : 
© TRD HRA vk) 编码 ， 假 定量 化 采样 满足 v[]< 2?™ 。 因 为 采样 统计 后 发 现 可 近似 
为 马尔 可 夫 链 ， 当 前 采样 的 “ 权 ” 依 赖 于 与 之 相近 的 8 个 直接 邻居 的 值 。 这 些 邻 居 的 “ 权 ” 
值 可 以 分 为 以 下 三 类 : 


“ 水平 的 [k= ,naoih+z,kz], 其 中 0< hIk]<2。 
EAH lk) =) egyek +2), HPO < vlk]<2。 
HARK d= Seg Fills +k +z), HHO < dik] <4 « 


码 块 外 部 的 邻居 被 认为 是 不 重要 的 ， 但 要 注意 子 块 不 是 完全 独立 的 。256 种 可 能 的 邻居 配置 
被 简化 为 9 种 不 同 的 上 下 文 分 配 ， 如 表 9-4 所 示 。 
。 游 长 编码 ” 游 长 编码 的 最 初 目的 是 产生 串 的 1 位 权 值 的 序列 ， 作 为 算术 编码 的 准备 。 当 一 
个 有 不 重要 邻居 的 不 重要 采样 的 水 平 序列 出 现时 ， 就 采用 这 种 编码 方法 而 不 是 零 编码 。 必 [269] 
须 有 以 下 四 种 之 一 情况 发 生 时 ， 我 们 使 用 游 长 编码 ; 
.连续 四 个 采样 都 是 不 重要 的 。 
. 采样 必须 有 不 重要 的 邻居 。 
.采样 都 必须 在 一 个 子 块 内 。 
， 第 一 个 采样 的 水 平 索引 k 必须 是 偶数 。 


表 9-4 零 编 码 的 上 下 文 分 配 


E 
oo 
EE Th 
CC E E E T, 
O | | | 
; ; 


最 后 两 种 情况 仅仅 是 为 了 提高 效率 。 当 有 4 个 标记 满足 这 些 条 件 时 ， 我 们 将 对 一 个 特殊 的 位 
编码 ， 来 确认 在 当前 的 位 平面 内 是 否 有 重要 的 采样 〈 使 用 一 个 单独 的 上 下 文 模型 )。 如 果 四 个 采 
样 里 有 任意 一 个 是 重要 的 ， 那 么 第 一 个 采样 的 索引 将 会 用 2 位 来 表示 。 

。 符 号 (sign) 编码 ”对 每 一 个 采样 至 多 执行 一 次 符号 编码 ， 当 采样 在 零 编码 或 游 长 编码 过 
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程 中 发 生 从 不 重要 到 重要 的 转变 时 ， 立 刻 执行 符号 编码 。 因 为 每 一 个 采样 有 4 个 水 平 邻居 
和 4 个 垂直 邻居 ， 每 个 邻居 都 有 可 能 是 不 重要 的 、 正 的 或 负 的 ， 一 共有 34=81 种 不 同 的 配 
E. 但 是 , 利用 水 平和 垂直 的 对 称 性 , 并且 假设 条 件 分 布 为 x,[k] ,对 给 定 的 任何 邻居 配置 
与 一 xi[k] 的 处 理 相同 ， 最 后 上 下 文 的 数量 减少 到 5 种 。 
如 果 两 个 水 平 邻 居 都 是 不 重要 的 ， 则 饭 [ 有 ] 为 0， 如 果 至 少 有 一 个 水 平 邻 居 为 正 ， 则 该 
值 为 1， 若 至 少 有 一 个 水 平 邻居 为 负 ， 则 该 值 为 一 1〈 志 [ 妇 的 定义 类 似 )。 名 [k] 表 示 符号 的 
270 预测 值 , RAA EFRR REIL z[k] Polke] 。 表 9-5 给 出 了 这 些 上 下 文 的 分 配 。 


表 9-5 符号 编码 的 上 下 文 分 配 
lk hlk] vik] 


E 
af 


bhEwlnfael_ol]le | wel w |] a 
eoloto]}e|[Ret 


幅 值 细 化 ”这 个 过 程 的 目的 在 于 , WE vik] 2 时 , X vlk] 的 值 编码 。 在 这 里 仅 用 到 3 
种 上 下 文 模型 .第 二 个 状态 变量 6,fk] 在 这 里 引入 , 当 幅 度 细 化 第 一 次 应 用 到 s,[K] 时 , ik] 
的 值 从 0 变 为 1。 上 下 文 模型 和 这 个 状态 变量 的 值 有 密切 的 关系 : 当 G,[K]= [Kk]=vi[lk]=0， 
vPI 以 上 下 文 为 0 的 方式 编码 ， 当 6,[Kk] = 0 并 且 h[K]+vi[Kk] 关 0 时 ， 以 上 下 文 为 1 的 方式 
编码 ，6,[k]=1 时 以 上 下 文 为 2 的 方式 编码 。 
为 了 确保 每 个 码 块 有 一 个 合适 的 嵌入 式 位 流 ， 每 一 个 位 平面 P 的 编码 过 程 经 过 4 个 不 
NIH, (2r) 到 (CZP): 
MMR OA’) “ 子 块 的 采样 以 行 扫描 线 的 顺序 访问 。 不 重要 的 采样 和 不 满 
足 邻 居 需 求 的 采样 将 被 跳 过 。 对 于 LH、HL ALL 子 带 ， 邻 居 的 需求 是 至 少 有 一 个 水 平 邻 
居 是 重要 的 。 对 于 HH 子 带 ， 邻 居 的 需求 是 在 四 个 对 角 线 邻居 中 至 少 有 一 个 是 重要 的 。 
对 于 满足 了 邻居 需求 的 重要 采样 ， 等 编码 和 游 长 编码 将 被 采用 来 判定 采样 是 否 是 第 一 次 在 位 
平面 p 内 变 得 重要 。 如 果 判 断 为 真 ， 将 通过 符号 编码 对 符号 进行 编码 。 这 称 为 前 向 重要 性 传播 通 
道 ， 因 为 刚 发 现 的 重要 性 采样 将 在 下 面 的 新 的 权 确 定 步骤 里 提供 重要 信息 ， 引 导 扫描 的 方向 。 
。 反 向 重要 性 传播 通道 〈 马 ” ) ”这 个 过 程 和 (有? ) 相同 ， 只 是 它 是 逆向 的 。 邻 居 的 需求 
有 所 放松 ， 包 括 了 在 任意 方向 上 至 少 有 一 个 重要 邻居 的 采样 。 
。 幅 值 细 化 通道 〈 B? ) ”这 一 个 通道 处 理 那 些 是 重要 的 但 在 前 面 两 个 通道 中 没有 处 理 的 采 
样 。 这 些 采样 在 幅 值 细 化 过 程 里 进行 处 理 。 
。 规范 化 通道 有 怠 ? ) ”用 符号 编码 和 游 长 编码 对 在 前 面 3 个 编码 过 程 中 没有 考虑 的 所 有 采 
样 的 vP[k] 编码 。 如 果 某 个 采样 是 重要 的 ， 则 对 它 的 符号 立刻 进行 符号 编码 。 
图 9-9 显示 了 每 一 个 块 的 嵌入 式 位 流 的 编码 通道 和 四 又 树 编码 的 基本 构成 。$2? 表示 四 叉 树 编 
码 , 标识 位 平面 内 重要 的 子 块 。 请 注意 , 对 任意 一 个 位 平面 p，5? 只 出 现在 最 后 的 编码 通道 Z 
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前 ， 而 不 是 在 最 初 的 编码 通道 A? 前 。 这 表明 第 一 次 在 位 平面 p 内 变 为 重要 的 子 块 一 直 被 忽略 ， 
直到 最 后 一 个 编码 通道 才 得 到 重视 。 





图 9-9 每 个 块 的 嵌入 位 流 中 编码 扫描 和 四 又 树 代 码 


2. 压缩 后 率 失 真 优化 

在 所 有 的 子 带 采样 被 压缩 后 , 就 要 进行 压缩 后 率 失 真 (Post Copression Rate Distortion, PCRD) 
步骤 。PCRD 的 目的 是 产生 每 一 个 码 块 的 独立 位 流 的 优化 截断 ， 以 便 在 位 速率 的 约束 条 件 下 失真 
最 小 。 每 一 个 码 块 记 的 截断 嵌入 位 流 有 速率 R* ， 则 重组 图 片 后 的 失真 如 下 所 示 “〔〈 假 设 失真 是 可 
加 的 ): 


D=》 D" (9.3) 


Di 表示 从 B; 得 出 的 失真 ，B; 有 截断 点 nn, 。 对 每 一 个 码 块 B,， 失 真 可 以 用 下 式 计算 得 到 : 
Di =w; > (Sr [kK]—sitkD)? (9.4) 
keB, 


silk] 是 码 块 瓦 内 的 子 带 采 样 的 二 维 序列 ， 寻 大 ] 是 和 截断 点 n 相关 的 采样 的 量化 表示 。 值 W2 |272 
是 包含 码 块 B KITE b SREB L OR. 
截断 点 疡 的 优化 选择 问题 可 以 转化 为 有 以 下 约束 条 件 的 求 最 小 值 问题 : 


及 = DR” <R™ (9.5) 


R™ 表示 可 用 的 位 速率 ， 对 于 某 一 个 4， 任 何 使 得 表达 式 
(D(A) +AR(A)) = (DP + ARP) (9.6) 


有 最 小 值 的 截断 点 集合 {nf } 就 是 最 优 的 。 所 以 ， 找 到 在 条 件 ROA) =R FER (9.6) 有 最 小 值 
的 截断 点 集合 就 能 产生 整个 优化 问题 的 解 。 
因为 截断 点 的 集合 是 离散 的 ， 所 以 不 太 可 能 找到 一 个 4 使 得 ROA) 刚好 等 于 Rae 。 但 是 ， 
为 BBCOT 算法 使 用 相对 较 小 的 码 块 ， 每 一 个 码 块 都 有 很 多 的 截断 点 ， 所 以 存在 足够 多 的 机 会 找 
到 最 小 的 4 ， 使 得 RCA) <R™. 
很 容易 看 出 ， 每 个 码 块 B 能 单独 地 进行 最 小 化 。 设 N 表示 可 行 的 截断 点 集合 ， 并 且 令 
廊 < 户 <… 是 这 些 可 行 的 截断 点 ， 它 们 的 失真 率 比 例 由 下 面 的 表达 式 给 出 ; 
SA -A (9.7) 
Sip ARS = 了 -Ri ，ADP =D} ~- Dj" 。 可 以 证 明 , 斜率 是 严格 递减 的 ， 因 为 失真 率 曲 线 是 凸 
函数 而 且 严 格 递减 。1 值 的 最 小 化 问题 就 简化 为 选择 一 个 合适 的 4 使 得 
np =max{ jk E M; ISË >A} (9.8) 
用 两 分 法 对 失真 率 曲线 进行 操作 就 可 找到 最 优 值 1。 该 方法 的 详细 描述 可 以 在 [6] 中 找到 。 
3， 层 的 格式 化 和 表示 
与 其 他 著名 的 可 扩展 图 像 压 缩 算法 (如 EZW 和 SHT) 只 具有 服务 质量 可 扩展 性 不 同 ， 
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EBCOT 算法 同时 提供 了 分 辨 率 和 服务 质量 的 可 扩展 性 。 该 功能 通过 分 层 的 位 流 结构 和 双 层 的 编 
码 策 略 得 到 的 。 

EBCOT 产生 的 最 终 位 流 是 由 一 组 服务 质量 层 组 成 的 。 服 务 质 量 层 Qi 包含 每 个 码 块 B; 初 始 的 
R 个 字 节 ， 其 他 层 @, 包含 了 从 码 块 B; 增 加 的 = RY -RE >0 个 字 节 。 其 中 nf 是 与 第 gq 质量 
层 的 率 失真 域 值 4 有 关 的 截断 点 。 图 9-10 描述 了 分 层 的 位 流 〈 参 见 [5] )。 





9-10 FEA 8 个 块 的 3 个 质量 层 


除了 增加 的 部 分 ， 长 度 4 、 新 编码 通道 的 个 数 Nf =n? -n 、B; 对 服务 质量 层 8, 产生 第 一 
次 非 空 贡献 的 值 pO 以 及 B; 产 生 第 一 次 非 空 贡 献 服务 质量 层 的 索引 gq; ， 这 些 辅助 信息 也 需要 被 
明确 存储 。 这 些 辅助 信息 压缩 在 第 二 层 编码 引 敬 中。 因此， 在 这 个 双 层 体系 结构 中 ， 第 一 层 产生 
了 一 个 嵌入 的 块 位 流 ， 而 第 二 层 将 块 的 贡献 编码 到 每 个 质量 层 。 

本 节 的 重点 是 每 个 质量 层 的 辅助 信息 的 第 二 层 处 理 。 第 二 层 编码 引擎 仔细 处 理 两 个 显示 模块 
间 的 元 余 量 。 这 两 个 量 是 p~ 和 B 产生 第 一 次 非 空 贡献 的 服务 质量 层 的 索引 qio 

qi 的 编码 是 在 每 个 子 带 中 采用 一 个 独立 的 嵌入 式 四 又 树 编码 来 实现 的 。 在 这 个 代表 整个 子 带 
的 树 中 ， 设 BL =B AHF, B 为 树 的 根 。 令 qi = min{gqj1B; C Bi} 为 第 一 个 四 又 树 Bi 中 的 任意 
编码 模块 有 非 空 贡献 的 层 的 索引 。 用 一 个 位 来 确定 每 一 层 t 的 每 一 个 四 又 树 是 否 符 合 qi >q, B 
AAT ARN. WR qi < g-1 或 者 某 个 父 四 又 树 B a > qg， 则 四 叉 树 是 匈 余 的 。 

另 一 个 需要 考虑 的 元 余 量 是 p. HE, p~ 只 和 服务 质量 层 O, 的 编码 相关 。 ALL, pr” 
中 的 多 余 信 息 不 用 被 发 送 ， 除 非 我 们 准备 对 O 进行 编码 。EBCOT 采用 的 是 叶子 驱动 (而 不 是 树 
根 驱动 ) 的 经 修改 的 嵌入 式 四 叉 树 来 完成 上 述 工作 。 

A B! 是 每 个 子 带 的 编码 模块 B, 顶部 的 四 又 树 的 元 素 ， 令 pr = max{pP™ IB; C Bi}. AS. 
& Bi 是 Bi 的 祖先 , 而 P 是 一 个 保证 大 于 任意 编码 模块 B; 的 pz 的 值 。 当 编码 模块 B; 首 次 向 服务 
质量 层 Q 贡献 位 流 时 ， PPe = pm? 的 值 是 用 下 面 的 算法 编码 的 : 

。 对 于 p=P-1,P-2,…,0: 

”发送 二 进 制 数位 来 确定 pp < p 是 否 成 立 跳 过 见 余 位 。 
"如果 PP” =p, WFE. 

见 余 位 与 条 件 pra < p 相对 应 ， 这 个 条 件 可 以 由 满足 pp” < p 的 祖先 或 用 来 为 不 同 编码 

模块 Bj 确定 pT” 的 局 部 四 又 树 编码 推导 得 出 。 


9.2.2 使 EBCOT 适合 JEPG 2000 
JPEG 2000 采用 EBCOT 算法 作为 主要 的 编码 方法 。 但 是 ， 这 个 算法 作 了 少量 的 修改 以 提高 
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压缩 率 并 减少 计算 复杂 度 。 

为 了 进一步 提高 压缩 效率 ， 与 原来 在 所 有 上 下 文中 使 用 等 概率 状态 来 初始 化 业 编 码 器 不 同 ， 
JPEG2000 标准 假设 对 于 某 些 上 下 文 分 布 很 不 对 称 ， 以 此 来 减少 对 典型 图 像 的 模型 适应 代价 。 同 
时 ， 对 原 有 的 算法 进行 了 一 些 调整 以 进一步 减少 执行 时 间 。 

首先 ， 用 一 个 没有 乘除 法 的 低 复 杂 度 算术 编码 器 〈 称 为 MQ 编码 器 ) 代替 原 算 法 中 的 一 般 算 
术 编 码 器 。 而 且 ，JPEG 2000 不 会 移动 HL 子 带 编码 模块 ， 而 是 移动 零 编 码 上 下 文 分 配 图 的 相应 项 。 

为 了 保证 扫描 方向 的 一 致 性 ，JPEG 2000 将 前 向 和 后 向 传播 通道 结合 为 一 个 有 邻近 需求 〈 相 
当 于 原来 的 后 向 通道 ) 的 向 前 重要 性 传播 通道 。 而且， 将 子 块 的 大 小 从 16x16 减 小 到 4x4 消除 了 
对 子 块 编码 的 需求 。 这 样 得 到 的 小 子 块 的 概率 分 布 是 很 不 对 称 的 ， 所 以 编码 器 的 做 法 似乎 所 有 的 
子 块 都 是 重要 的 。 

这 些 修改 的 共同 作用 就 是 使 软件 执行 的 速度 提高 了 40%， 而 与 原 算法 相 比 ， 平 均 丢 失 率 大 约 
是 0.15dB. 


9.2.3 ” 感 兴 趣 区 域 编码 


新 的 JPEG 2000 标准 的 一 个 重要 特性 就 是 可 以 实现 感 兴趣 区 域 (ROI) 编码 [8]。 这 样 ， 相 对 

于 图 像 的 背景 或 其 他 部 分 来 说 ， 某 些 部 分 可 以 采取 高 质量 的 编码 。 一 个 称 为 MAXSHIFT 的 方法 ， 

是 一 种 可 伸缩 的 方法 ,可 以 将 ROI 内 的 系数 增加 到 更 高 层 的 位 平面 中 。 在 这 种 柑 入 式 的 编码 过 程 

中 ， 所 处 理 的 比特 将 被 放置 到 图 像 的 非 ROI 部 分 前 面 。 所 以 ， 给 定 一 个 缩小 了 的 码 率 ，ROI 将 在 

图 像 的 其 他 部 分 之 前 解码 和 改善 。 由 于 以 上 这 些 机 制 的 作用 , ROI 将 会 有 着 比 背 景 图 案 更 高 的 质量 。 
需要 注意 的 一 点 是 , 在 不 考虑 尺度 因素 时 , 位 流 的 全 解码 能 够 以 最 大 的 逼真 度 重 建 整 幅 图 像 。 

图 9-11 显示 了 当 样 例 图像 的 目标 码 率 增 加 时 ， 进 行 ROI 编码 的 效果 。 


Rae z 人 - 
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b) 0.5bpp 





d) 0.7bpp 
图 9-11 一 幅 图 像 的 ROI 编码 ， 它 使 用 圆 形 ROI， 具 有 渐 增 码 率 276 


c) 0.6bpp 
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9.2.4 JPEG #0 JPEG 2000 的 性 能 比较 


在 研究 过 JPEG 2000 的 压缩 算法 的 原理 后 ， 很 自然 会 产生 一 个 问题 : JPEG 2000 的 性 能 将 在 
多 大 程度 上 优 于 以 JPEG 为 代表 的 其 他 常用 的 标准 ? 此 前 ， 已 经 有 很 多 人 对 IPEG 和 其 他 标准 进 
行 过 比较 ， 这 里 我 们 将 只 比较 JPEG 2000 和 JPEG。 

不 同 的 判断 标准 〈 例 如 计算 复杂 度 、 压 缩 率 和 错误 恢复 等 ) 均 曾 经 用 来 评价 一 个 系统 的 性 能 。 
由 于 我 们 主要 关注 JPEG 2000 标准 的 压缩 方面 的 性 能 ， 所 以 我 们 将 只 比较 压缩 率 〈 对 于 其 他 判断 
标准 感 兴趣 的 读者 可 参考 文献 [9] 和 [10])。 

给 定 一 个 固定 的 码 率 ， 我 们 将 基于 PSNR 来 定量 比较 压缩 的 图 像 的 质量 。 对 于 彩色 图 像 ， 通 
过 计算 所 有 RGB 分 量 的 均 方 差 的 平均 值得 到 PSNR。 此 外 ， 我 们 将 把 通过 JPEG2000 和 JPEG FE 
缩 的 图 像 可 视 化 地 显示 出 来 ， 从 而 作出 定性 的 判断 。 我 们 对 于 3 种 类 型 的 图 像 进行 比较 ， 即 自然 
图 像 、 计 算 机 生成 的 图 像 ， 以 及 医学 图 像 ， 每 一 类 采用 3 幅 图 片 。 用 于 测试 的 图 片 可 以 在 本 书 网 
站 上 的 第 9 章 的 Further Exploration 小 节 中 找到 。 

对 于 每 一 幅 图 像 ， 我 们 采用 JPEG 和 JPEG 2000 分 别 在 4 个 码 率 下 压缩 , 即 0.25bpp、0.5bpp、 
0.75bpp 和 1.0bpp。 图 9-12 显示 每 一 类 图 像 的 平均 PSNR 与 码 率 的 关系 曲线 。 我 们 可 以 看 出 ， 在 
每 一 类 中 ，JPEG 2000 的 性 能 比 JPEG 都 有 很 大 程度 的 提高 。 
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b) 计算 机 生成 的 图 像 c) 医学 图 像 
图 9-12 不 同 图 像 类 型 上 的 JPEG 和 JPEG 2000 的 性 能 比较 
为 了 对 于 压缩 结果 有 一 个 定性 的 认识 ， 我 们 选择 一 幅 图 像 ， 并 显示 应 用 两 种 算法 在 较 低 码 率 


(0.75bpp) 和 较 高 码 率 〈0.25bpp) 下 得 到 的 解压 缩 后 的 效果 。 从 图 9-13 的 结果 中 可 看 出 ， 采 用 
JPEG 2000 压缩 的 图 像 的 处 理 痕迹 较 小 。 
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9-13 JPEG ŽI JPEG 2000 的 压缩 


9.3 JPEG-LS 标准 


通常 来 说 ， 我 们 会 采用 一 种 无 损 压 缩 方 案 来 处 理 某 些 重要 的 图 像 ， 如 大 脑 的 医学 图 像 ， 或 者 
较 难 取得 的 图 像 或 者 获取 成 本 很 高 的 图 像 。 可 以 与 JPEG 2000 中 的 无 损 模式 相 媲 美的 标准 是 
JPEG-LS 标准 ， 目 的 是 实现 无 损 编码 [11]。JPEG-LS 与 JPEG 2000 相 比 ， 主 要 优点 是 采用 的 算法 
复杂 度 低 。JPEG-LS 是 ISO 对 医学 图 像 建 立 更 好 标准 的 努力 结果 。 

JPEG-LS 实际 上 是 现 有 的 ISO/ATU 关于 对 连续 色调 的 图 像 进 行 无 损 或 “ 准 无 损 ” 压 缩 的 标准 。 
JPEG-LS 的 核心 算法 称 为 图 像 的 低 复杂 度 无 损 压 缩 算法 ( 简 记 为 LOCO-I)， 是 由 惠普 公司 提出 的 
[11]。 该 算法 的 设计 基础 是 , 降低 复杂 性 通常 要 比 采 用 更 复杂 的 压缩 算法 使 压缩 结果 稍 有 提高 ( 指 
压缩 的 结果 更 小 ) 更 为 重要 。 

LOCO-I 采 用 了 上 下 文 建 模 (context modeling) 的 概念 。 上 下 文 建 模 的 思想 是 利用 输入 源 中 
的 结构 一 一 在 图 像 中 每 一 个 像素 之 后 出 现 的 像素 值 的 条 件 概率 。 这 种 额外 的 信息 叫做 上 下 文 。 如 果 
输入 源 中 包含 明显 的 结构 是 一 种 常见 的 情况 , 因此 , 我 们 可 以 使 用 比 零 阶 焙 更 少 的 位 数 来 实现 压缩 。 





277 
l 
279 


280 


194 BK BRAKBAR 


作为 简单 例子 , 我 们 假设 有 一 个 二 进 制 源 , 它 满足 P(0) = 0.4 Al PUA = 0.6, 那么 第 0 Bri HS) 
= -0.4log2(0.4) 一 0.6log2(0.6) = 0.97 。 现 在 假设 已 经 知道 这 个 源 有 以 下 性 质 : 如 果 前 一 个 标记 是 0， 
那么 当前 标记 为 0 的 概率 为 0.8; 而 如 果 前 一 个 标记 是 1， 那 么 当前 标记 为 0 的 概率 为 0.1。 
如 果 我 们 用 前 一 个 标记 为 作为 我 们 的 上 下 文 ， 我 们 就 可 以 把 输入 标记 看 作 两 个 集合 ， 也 就 是 
上 下 文 0 和 上 下 文 1。 那 么 每 一 个 集合 的 焙 就 分 别 是 : 
H(S,) =—0.8log> (0.8) — 0.210g2 (0.2) = 0.72 


H (S2) =—0.1log2 (0.1) — 0.9 10g2 (0.9) = 0.47 


整个 源 的 平均 码 率 是 0.4x0.72+0.6x0.47 = 0.57 ， 这 远 远 小 于 本 例 中 整个 数据 源 的 0 HH. 
LOCO-I 实际 上 使 用 一 种 如 图 9-14 所 示 的 上 下 文 模型 。 如 果 在 光栅 扫描 顺序 中 ， 上 下 文 像素 
ay b, cd 都 会 在 当前 像素 x 前 显示 , 那么 这 就 叫做 因果 上 下 文 。 
LOCO-I 可 以 分 解 为 以 下 3 个 部 分 : 
。 预 测 ” 用 因果 模板 预测 下 一 个 样本 x 的 值 。 
。 确 定 上 下 文 “决定 x 出 现 的 上 下 文 条 件 。 
。 残 差 编 码 ”以 x AE BOCES PH AY EE SS o 


9.3.1 预测 


一 种 更 好 的 预测 方法 是 使 用 基于 计算 局 域 边界 方向 的 自 适应 模型 。 但是， 因为 JPEG-LS 的 目 
标 是 降低 复杂 度 ，LOCO-I 算法 就 采用 了 一 种 固定 的 预测 模型 以 对 检测 到 的 垂直 和 水 平 边界 作 基 
本 测试 。 这 种 算法 使 用 的 固定 预测 模型 如 下 : 


图 9-14 JPEG-LS 上 下 文 模型 





min(a,b) c > max(a,b) 
& = 4 max(a,b) c < min(a,b) (9.9) 
a+b-c 其 他 


可 以 看 出 ， 这 种 预测 器 在 三 种 简单 的 预测 器 间 进 行 切 换 。 它 在 当前 位 置 左边 有 垂直 边界 的 时 
候 输 出 a; 在 当前 位 置 的 上 边 有 水 平 边界 时 输出 b; 在 临近 样本 都 相对 平滑 的 时 候 输出 a+b 一 c。 
9.3.2 ”确定 上 下 文 
以 当前 预测 误差 〈 残 差 ) 为 条 件 的 上 下 文 模型 用 由 3 个 分 量 构成 的 上 下 文 向 量 Q = (41.92.93) 
进行 索引 ， 其 中 Q 的 每 一 个 分 量 分 别 为 : 
qı=d-b 
qı =b-c (9.10) 
q3 =c-a 
这 种 差 表示 局 部 梯度 ， 它 记录 的 是 局 部 平滑 性 或 环绕 当前 样本 的 边界 内 容 。 因 为 差 的 取 值 范 
围 比 较 广 ， 而 基本 的 上 下 文 模型 也 是 巨大 的 ， 从 而 使 得 直接 上 下 文 建 模 方法 不 可 行 。 为 解决 这 个 
问题 ， 我 们 要 使 用 参数 缩减 的 方法 。 
一 种 有 效 的 方法 是 把 这 些 差 量化 ， 以 便 它们 能 用 一 些 有 限 的 值 来 表示 。Q 的 各 分 量 可 以 用 以 
下 的 量化 器 来 定量 化 ， 该 量化 器 以 -7T,…,-10,1…,T 为 量化 边界 。 在 JPEG-LS 中 ，7=4。 上 下 文 
的 大 小 通过 用 -Q 取代 第 一 个 元 素 为 负 的 上 下 文 向 量 Q 得 到 进一步 缩减 。 所 以 ， 不 同上 下 文 的 状 


3 
aate EED 一 365 种 。 然后 ，Q 就 能 被 映射 到 [0, 364] 的 一 个 整数 上 了 。 
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9.3.3 ” 残 差 编码 

对 任意 图 像 , 预测 残 差 都 有 一 个 有 限 的 大 小 w 。 对 一 个 预测 值守 , 残 差 e WWE -2 <e <a-k 
范围 内 变动 。 因 为 对 的 值 可 以 由 解码 器 得 到 ， 残 差 e 的 动态 范围 可 以 通过 对 a 取 模 ， 并 且 映 射 到 
-Z elZ -izmena 

可 以 证 明 ， 误 差 残 差 服从 双 面 几何 分 布 Two-Sided Geometric Distribution, TSGD). ltt, 
它们 可 以 基于 Golomb 码 使 用 自 适应 的 选择 码 进 行 编 码 ， 这 对 于 服从 几何 分 布 的 序列 而 言 是 最 优 
的 方法 。 
9.3.4 AEA 

JPEG-LS 标准 也 提供 准 无 损 模式 ， 其 中 ， 重 建 的 样本 与 原来 样本 相差 不 超过 某 个 6 。 无 损 
JPEG-LS 模式 可 被 看 作 误 差 模式 6 =0 时 的 特例 。 准 无 损 压 缩 可 以 使 用 量化 得 到 : 残 差 使 用 一 个 
统一 的 以 26 +1 为 间隔 的 量化 器 进行 量化 。 量 化 后 的 e 值 用 下 式 表示 : 





|el+6 
ate) -sion Elt (9.11) 

因为 6 只 能 取 很 少 几 个 整数 值 ， 所 以 这 种 除法 运算 可 以 使 用 查找 表 高 效率 地 实现 。 在 准 无 损 
模式 中 ， 前 面 描述 的 预测 和 上 下 文 决定 步骤 都 只 能 对 通过 量化 后 的 值 进行 。 


9.4 二 值 图 像 压缩 标准 


由 于 越 来 越 多 地 使 用 电子 形式 来 处 理 文档 ， 因 此 越 来 越 需要 能 够 有 效 压 缩 二 值 图 像 ( 指 的 是 
仅 用 1 位 表示 黑 或 白 像素 ) 的 方法 。 常 见 的 例子 就 是 传真 图 像 。 利 用 图 像 数据 的 二 元 特性 的 算法 
的 性 能 一 般 要 好 于 通常 的 图 像 压 缩 算法 。 早 期 的 传真 标准 (如 G3 和 G4) 使 用 简单 的 二 值 图 像 的 
结构 模型 。 图 像 上 的 每 一 扫描 线 都 被 看 作 黑 白 像素 组 成 的 序列 。 然 而 ， 考 虑 到 相 邻 像素 和 待 编码 
的 数据 的 特征 就 能 够 构造 出 更 加 有 效 的 算法 。 本 节 将 分 析 JBIG 标准 和 它 的 后 续 标准 JBIG2， 以 
及 这 两 种 标准 的 制订 原因 和 原则 。 


9.4.1 JBIG 标准 


JBIG 是 由 Joint Bi-level Image Processing Group〔 联 合 = 值 图 像 专家 组 ) 提出 的 二 值 图 像 的 编 
码 标准 。 这 种 无 损 压 缩 标准 主要 用 来 为 打印 的 图 像 或 者 手写 的 文本 、 由 计算 机 产生 的 文字 和 传真 
进行 编码 。 它 具有 渐进 的 编码 和 解码 能 力 ， 也 就 是 说 ， 编 码 后 的 位 流 包 含 一 套 渐 进 的 高 分 辩 率 的 
图 像 。 这 种 标准 也 可 以 用 来 独立 地 为 每 一 个 位 平面 来 编码 灰 度 和 彩色 图 像 , 但 这 并 不 是 主要 的 目的 。 

JBIG 压缩 标准 具有 3 种 独立 的 操作 模式 ， 渐 进 式 、 渐 进 -兼容 序列 式 和 单 渐 进 序列 式 。 渐 
进 -兼容 序列 模式 使 用 与 渐进 模式 一 致 的 位 流 ， 唯 一 的 不 同 是 ， 存 这 种 模式 下 数据 被 分 成 “条 ”。 

单 渐进 序列 模式 具有 唯一 的 最 低 的 分 辨 率 层 。 因 此 ， 可 以 在 不 参照 其 他 较 高 分 辩 率 层 的 情况 下 
为 整 幅 图 像 编码 。 这 两 种 模式 都 可 以 看 成 是 渐进 模式 的 特例 。 因此 , 我 们 的 讨论 仅仅 涉及 渐进 模式 。 

JBIG 编码 器 可 以 分 解 成 两 个 部 分 : 

。 分 辩 率 缩减 和 差分 层 编码 器 

。 最低 分 辨 率 层 编 码 器 

输入 图 像 通 过 一 系列 分 辩 率 缩减 和 差分 层 编码 器 。 每 一 个 编码 器 在 功能 方面 是 相同 的 ， 只 是 
它们 的 输入 图 像 具 有 不 同 的 分 辨 率 。 一 些 JBIG 标准 的 实现 会 选择 迭代 地 使 用 同一 个 物理 编码 器 。 
最 低 分 辩 率 的 图 像 使 用 最 低 分 辨 率 层 编 码 器 来 进行 编码 。 此 编码 器 的 设计 比分 辩 率 缩减 和 差分 层 
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编码 器 要 简单 一 些 ， 因 为 分 辩 率 缩减 和 判决 预测 操作 不 是 必需 的 。 
9.4.2 JBIG2 标准 


尽管 JBIG 标准 提供 无 损 和 渐进 的 〈 从 有 损 和 无 损 ) 编码 功能 ， 此 标准 产生 的 有 损 图 像 与 原 
始 图 像 相 比 ， 质 量 上 相差 很 多 ， 因 为 有 损 图 像 的 像素 数目 最 多 只 能 有 原始 图 像 像素 数目 的 1/4。 
相 比 而 言 ，JBIG2 标准 用 于 有 损 、 无 损 和 有 损 至 无 损 图 像 的 压缩 。JBIG2 的 目标 不 仅 在 于 提供 比 
已 有 标准 更 好 的 无 损 压 缩 性 能 ， 而 且 要 能 够 融合 有 损 压 缩 标准 ， 在 提高 压缩 率 的 前 提 下 ， 尽 可 能 
减少 视觉 下 降 。 

JBIG2 的 独特 之 处 在 于 它 具 有 质量 渐进 和 内 容 渐 进 。 质 量 渐进 的 意思 是 ， 它 的 位 流 和 JBIG 
标准 的 表现 相似 ， 在 JBIG 标准 中 ， 图 像 质量 从 低 向 高 〈 甚 至 可 能 无 损 ) 渐进 。 另 一 方面 ， 内 容 
渐进 允许 不 同类 型 的 图 像 数据 可 以 渐进 相 加 。JBIG2 编码 器 将 输入 的 二 值 图 像 分 解 成 具有 不 同属 
性 的 区 域 ， 并 且 对 每 一 部 分 使 用 不 同 的 方法 分 别 进行 编码 。 

和 其 他 的 图 像 压 缩 标准 相 比 ， 仅 有 IBIG2 位 流 和 解码 器 是 明确 定义 的 。 因 此 ， 任 何 能 够 产生 
正确 的 位 流 的 编码 器 都 是 “适应 的 ” 而 不 论 其 实际 采取 的 方式 。 另 一 个 使 JBIG2 标准 不 同 于 其 他 
编码 标准 的 特征 是 ， 它 可 以 表示 一 个 文件 中 的 一 个 文档 的 多 个 页 面 ， 可 以 使 它 利 用 页 间 的 相似 性 。 

例如 ， 如 果 一 个 字符 在 一 页 中 出 现 ， 它 也 可 能 在 其 他 页 中 出 现 。 使 用 一 种 基于 字典 的 技术 ， 
这 一 字符 只 需 编 码 一 次 ， 而 不 是 在 它 出 现 的 每 一 页 上 多 次 编码 。 这 一 压缩 技术 和 视频 编码 有 些 类 
似 ， 它 可 以 利用 帧 间 的 元 余 来 提高 压缩 率 。 

JBIG2 可 以 进行 内 容 渐进 编码 和 通过 基于 模型 的 编码 提供 较 好 的 压缩 性 能 。 在 基于 模型 的 编 
码 中 ， 在 一 个 图 像 中 为 不 同 的 数据 构造 不 同 的 模型 ， 这 样 就 可 实现 附加 的 编码 增益 。 

1， 基 于 模型 的 编码 

基于 模型 的 编码 的 思想 和 基于 上 下 文 的 编码 基本 相同 。 从 后 来 的 研究 中 ， 我 们 发 现 ， 可 以 通 
过 仔细 设计 一 个 上 下 文 模板 并 精确 地 估计 每 个 上 下 文 的 概率 分 布 来 实现 更 好 的 压缩 性 能 。 同 样 ， 
如 果 我 们 将 图 片 内容 分 成 不 同 的 种 类 ， 并 且 针 对 每 一 类 推导 出 一 个 模型 ， 那 么 就 很 有 可 能 为 数据 
的 行为 建立 精确 的 模型 ， 进 而 得 到 比较 高 的 压缩 率 。 

在 JBIG 风格 的 编码 中 ， 自 适应 的 和 模型 模板 能 够 获取 图 像 的 结构 。 这 种 模型 是 一 般 化 的 ， 
即 它 适用 于 各 种 类 型 的 数据 。 但 一 般 化 也 意味 着 它 不 能 直接 处 理 文 本 和 网 板 数 据 之 间 的 结构 上 的 
不 同 ， 而 它们 几乎 构成 了 所 有 的 二 值 图 像 的 内 容 。JBIG2 为 这 些 数据 类 型 设计 了 定制 的 模型 ， 从 
而 有 效 利用 了 这 一 特征 。 

JBIG2 规范 要 求 编码 器 首先 将 输入 图 像 分 割 成 不 同 数 据 类 型 的 区 域 ， 特 别 是 文本 和 半 色 调 区 
域 ， 然 后 每 个 区 域 再 根据 各 自 的 特征 分 别 编码 。 

(1) 文本 区 域 编码 

每 一 个 文本 区 域 可 以 分 成 包含 有 联系 的 黑色 像素 的 像素 块 。 这 些 “ 块 ”对 应 于 组 成 这 一 区 域 
内 容 的 字符 。 然 后 ， 为 这 个 字符 有 代表 性 实例 的 位 图 进行 编码 并 放 入 字典 ， 而 不 是 对 这 一 字符 的 
所 有 的 像素 进行 编码 。 对 于 被 编码 的 任何 字符 ， 算 法 首先 在 字典 中 寻找 与 其 匹配 的 字符 。 如 果 找 
到 匹配 字符 ， 那 么 指针 指向 字典 中 相应 的 项 ， 并 且 对 页 面 上 字符 的 位 置 编码 。 否 则 ， 像 素 块 被 让 
接 编码 ， 并 加 入 到 字典 中 。 这 一 技术 在 JBIG2 规范 中 称 作 模式 匹配 和 置换 。 

然而 ， 对 于 扫描 文档 来 说 ， 同 一 字符 的 两 个 实例 不 太 可 能 每 个 像素 都 匹配 。 在 这 种 情况 下 ， 
JBIG2 使 用 包括 精 化 数据 的 选项 来 重 塑 页 面 上 的 原始 字符 。 精 化 数据 使 用 字典 中 的 匹配 字符 的 像 
素 为 当前 字符 进行 编码 。 编 码 器 能 自由 选择 精 化 数据 ， 使 之 或 是 精确 的 或 是 有 损 的 。 这 一 方法 叫 
BAK CB Be. 
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数值 数据 〈 如 字典 中 匹配 字符 的 索引 和 页 面 上 字符 的 位 置 ) 可 进行 逐 位 编码 或 赫 夫 曼 编 码 。 
字典 中 字符 的 每 个 位 图 通过 基于 JBIG 的 技术 进行 编码 。 

(2) 半 色 调 区 域 编码 

JBIG2 方法 推荐 了 两 种 针对 半 色 调 图 像 进行 编码 的 方法 。 第 一 种 方法 类 似 于 在 JBIG 中 使 用 
的 基于 上 下 文 的 算术 编码 。 唯 一 的 不 同 在 于 ， 新 标准 允许 上 下 文 模板 包含 多 至 16 个 模板 像素 ， 
其 中 四 个 可 以 是 自 适应 的 。 

第 二 种 方法 称 为 去 网 (descreening)。 此 方法 涉及 转换 为 灰 度 图 并 对 灰 度 值 进行 编码 。 在 此 种 
方法 中 ， 二 值 区 域 被 分 成 大 小 为 mxn 的 块 。 对 于 mxn 二 值 区 域 来 说 ， 所 得 的 灰 度 图 像 的 维 数 
是 ms =| (m+(m,-1))/ m |] 和 ns =| (n+(ns 一 D))/ns | 。 然 后 计算 灰 度 值 ， 作 为 对 应 于 m xn, RH 
二 元 像素 值 的 和 。 灰 度 图 像 的 位 平面 用 基于 上 下 文 的 算术 编码 方法 编码 。 灰 度 值 用 作 半 色调 位 图 
模式 的 字典 的 索引 。 解 码 器 使 用 这 些 值 来 查询 字典 ， 从 而 重建 原来 的 半 色 调 图 像 。 

2， 预 处 理 和 后 处 理 

JBIG2 允许 使 用 有 损 压 缩 ， 但 并 没有 指定 具体 方法 。 从 解码 器 的 角度 来 看 ， 对 于 用 编码 器 编 
码 的 解码 图 像 的 位 流 是 无 损 的 ， 虽 然 对 于 原始 的 图 像 并 不 一 定 是 这 样 。 编 码 器 可 以 预先 修改 输入 
图 像 来 提高 编码 效率 。 预 处 理 器 通常 使 用 一 种 一 般 不 影响 图 像 外 观 的 方法 来 修改 原始 图 像 ， 从 而 
降低 编码 长 度 。 一 般 来 说 ， 此 操作 去 除 噪 声 像素 并 使 像素 块 更 加 平滑 。 

后 处 理 ( 是 规范 中 没有 涉及 的 话题 ) 对 于 半 色 调 来 讲 是 特别 有 用 的 ， 可 能 产生 视觉 效果 更 好 
的 图 像 。 将 解码 后 的 图 像 输 出 到 某 一 个 具体 输出 设备 〈 像 激光 打印 机 等 ) 有 助 于 调整 。 


9.5 ”进一步 探索 


Pennebaker 和 Mitchell[1] 及 Taubman 和 Marcellin[3] 分 别 对 JPEG 和 JPEG2000 进行 了 详细 介 
绍 。Bhaskaran 和 Konstantinides[2] 详 细 讨 论 了 几 种 图 像 压缩 标准 及 其 理论 。 284 
本 书 网 站 的 Further Exploration 提供 了 一 个 用 Java 写成 的 JPEG demo, 可 以 用 它 来 进行 实验 。 
其 他 有 用 的 链接 包括 : 
。 用 来 评估 JPEG/JPEG 2000 性 能 的 测试 图 像 库 ， 其 中 包括 自然 图 像 、 计 算 机 生成 的 图 像 以 
及 一 些 医学 图 像 。 
。 更 多 JPEG 和 JPEG 2000 的 相关 链接 。 
。JPEG 2000 编 /解码 器 的 Java 以 及 C 实现 。 
。 用 来 比较 JPEG 和 JPEG 2000 的 Java Applet。 
。 基 于 上 下 文 的 图 像 压缩 的 简单 说 明 。 
。 几 篇 研究 LOCO-I 的 文章 。 
。JPEG-LS 的 公开 源 代码 。 
。 对 JBIG 的 介绍 和 文档 ， 以 及 JBIG 和 JBIG2 的 源 代码 。 
e Mark Nelson 编译 的 数据 压缩 的 资源 , 包括 库 、 M JPEG, JPEG 2000、JPEG-LS 和 JBIG 
的 源 代码 等 。 


9.6 练习 


1. Ca) JPEG 使 用 离散 余弦 变换 (DCT) 进行 图 像 压缩 。 
i， 图 像 f(i, 门 如 下 所 示 ， 计 算 F(0,0) 的 值 ? 
这 ， 对 于 这 个 fi, 有 站 来 说 ， 最 大 的 AC 系数 |1F(w,v)| 是 什么 ?为 什么 ? X Fu, v) BIER 
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还 是 负数 ? 为 什么 ? 
20 


200 200 200 200 200 200 200 200 
200 200 200 200 200 200 200 200 
Cb) 详细 说 明 一 个 三 层 PEG 将 如 何 对 上 面 的 图 像 编码 ， 假 设 ; 
i. 三 层 中 的 所 有 编 / 解 码 器 都 使 用 无 损 JPEG 压缩 。 
下， 平均 将 每 个 2x2 的 块 减少 至 一 个 像素 值 。 
道 ， 扩 充 复 制 一 个 像素 值 四 次 。 
2. 在 JPEG 中 ， 离 散 余弦 变换 作用 于 图 像 的 8x8 块 上 ， 为 了 区 别 新 的 算法 ， 我 们 称 之 为 DCT-8。 
一 般 而 言 ， 我 们 能 够 定义 一 个 DCT-N 来 对 图 像 中 一 个 NxN 的 块 进行 DCT 变换 ，DCT-N 定义 
如 下 : - 


N-i N-i . 
Fy(u,v) = ee) ZEW) Y ¥ cos (2i+ Dun r cos GLOVE fe D 
i=0 j=0 
A 
COT = 9 
“其 他 情况 


给 定 fli, j)> AERE m ( 即 给 出 对 以 下 图 像 做 DCT-2 变换 的 结果 )。 
100 -100 100 -100 100 -100 100 -100 


100 -100 100 -100 100 -100 100 -100 
100 -100 100 -100 100 -100 100 -100 

3， 根 据 上 面 定义 的 PCT-N， 愉 (0 和 Fw(N -1) 分 别 是 表示 最 低 和 最 高 空间 频率 的 AC 系数 。 
(a) 已 知 在 图 像 滤 波 时 ， Fie(l) 和 Fs(l) 不 能 捕获 相同 的 (最 低 ) 频率 响应 ， 解 释 原因 。 

(b) fie(15) 和 Fa(7) 能 够 捕获 同样 的 〈 最 高 ) 频率 响应 吗 ? 

4. 假设 有 一 张 电脑 卡通 图 片 和 一 幅 照 片 , 如 果 你 能 够 用 JPEG 或 者 GF 两 种 图 像 压 缩 方法 对 这 两 
副 图 像 进行 压缩 ， 你 会 对 这 两 种 图 像 分 别 应 用 哪 种 方法 ? 证 明 你 的 结论 。 

5. 假设 我 们 看 到 一 幅 解压 缩 的 512x512 像素 的 JPEG 图 像 ， 但 是 这 幅 图 像 只 有 颜色 部 分 的 存储 信 
息 〈 而 没有 亮度 部 分 ) 来 进行 解压 缩 。 这 幅 512x512 像素 的 彩色 图 像 看 上 去 会 怎么 样 ? 假设 
JPBG 使 用 4:2:0 方案 压缩 。 

6. (a) JPEG 有 多 少 主要 模式 ? 它们 叫 什么 名 字 ? 

Cb) 在 分 级 模型 下 ， 简 要 解释 在 传送 图 像 到 解码 端 时 为 什么 必须 要 在 编码 端 有 一 个 编码 /解码 
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循环 。 
Co) 为 了 能 够 快速 、 粗 粒 度 地 显示 图 像 并 且 逐 步 提高 图 像 质量 , 可 以 应 用 哪 两 种 方法 仅 对 JPEG 
文件 的 信息 部 分 解码 ? 


7. 我 们 能 够 在 普通 的 JPEG 图 像 中 使 用 基于 小 波 变换 的 压缩 方法 吗 ? 如 何 使 用 ? 

8. 为 了 能 让 外 来 物种 看 到 图 像 ， 我 们 决定 创造 一 种 基于 JPEG 的 新 的 图 像 压 缩 标准 。JPEG 工作 
流程 中 的 哪 一 部 分 是 需要 改变 的 ? 

9. 与 EZW 不 同 ，EBCOT 不 会 显 式 利用 小 波 系数 的 空间 关系 。 它 使 用 的 是 PCRD 优化 方法 ， 讨 
论 这 种 方法 的 合理 性 。 

10. JPEG 2000 数据 流 的 信 噪 比 (SNR) 是 否 可 调 ? 如 果 是 ， 解 释 如 何 使 用 EBCOT 算法 实现 调整 。 

11. 实现 编码 器 和 解码 器 的 3 层 JPEG 算法 的 代码 转换 、 量 化 和 分 层 编码 。 你 的 代码 必须 《至 少 ) 
包含 一 个 显示 结果 的 图 像 用 户 界面 。 你 不 必 实 现 焙 (无 损 ) 编码 ， 你 可 以 选择 性 地 包含 一 些 
公开 的 源 代码 。 
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第 10 章 基本 视频 压缩 技术 


正如 第 7 章 中 所 讨论 的 , 未 压缩 的 视频 数据 量 非常 庞大 ,一 个 画面 大 小 为 352x288 的 普通 CIF 
(公共 媒介 格式 ) 视频 文件 在 没有 压缩 的 情况 下 ， 将 占用 35Mbps 的 带宽 。 在 HDTV 中 ， 码 率 就 
会 很 容易 超过 1Gbps。 这 就 对 视频 数据 的 存储 以 及 网 络 的 通信 能 力 提出 了 新 的 问题 和 挑战 。 

本 章 介绍 一 些 基本 的 视频 压缩 技术 , 并 结合 H.261、H.263 这 两 个 主要 针对 视频 会 议 的 视频 压 
缩 标准 来 进行 具体 的 阐述 。 接 下 去 的 两 章 将 进一步 介绍 几 种 MPEG 的 视频 压缩 标准 ,包括 最 新 的 
H.264 标准 。 


10.1 视频 压缩 简介 


视频 是 由 一 系列 的 时 间 上 有 序 的 图 像 〈 我 们 叫做 帧 ) 所 组 成 的 。 解 决 视频 压缩 的 一 个 简单 的 
方案 就 是 基于 前 面 的 帧 的 预测 编码 。 举 个 例子 ， 假 设 我 们 构造 一 个 预测 器 ， 预 测 器 的 预测 结果 和 
前 一 帧 相同 。 压 缩 不 是 对 图 像 本 身 进行 相 减 ， 而 是 按照 时 间 顺 序 进行 相 减 ， 并 将 残 差 进行 编码 。 

假设 大 多 数 的 视频 并 不 是 随时 间 变 化 的 , 那么 我 们 得 到 的 柱状 图 在 0 值 处 有 一 个 很 陡 的 尖峰 ， 
也 就 是 说 ， 根 据 原 视频 的 焙 可 以 进行 很 大 的 压缩 ， 这 正 是 我 们 所 期 望 的 。 

尽管 如 此 ， 事 实证 明 在 我 们 可 以 接受 的 代价 范围 内 ， 我 们 可 以 通过 搜索 图 像 中 的 适当 部 分 并 
和 前 一 帧 相 减 来 获得 更 好 的 压缩 效果 。 毕 竟 ， 我 们 简单 的 相 减 方案 在 办 公家 具 以 及 大 学 照片 这 样 
静止 的 背景 下 可 能 是 十 分 有 效 的 。 但 是 在 足球 比赛 中 ， 画 面 上 有 很 多 快速 运动 的 球员 ， 当 与 静态 
的 绿色 球场 相 减 的 时 候 就 会 产生 大 量 的 数据 。 

所 以 ， 在 下 一 节 中 ， 我 们 将 探讨 如 何 进行 更 好 的 视频 压缩 。 在 下 一 帧 中 寻找 足球 运动 员 的 位 
置 的 策略 吗 做 运动 估计 (motion estimation); 来 回 移动 帧 的 位 置 为 了 最 大 程度 上 将 球员 从 图 像 中 
减 去 ， 叫 做 运动 补偿 (motion compensation )。 


10.2 ”基于 运动 补偿 的 视频 压缩 

前 面 几 章 中 所 讨论 的 图 像 压 缩 技术 〈 如 JPEG 和 JPEG2000) RAS FU (spatial 
redundancy )。 图 像 内 容 在 整个 图 片上 变化 比较 缓慢 这 个 现象 使 得 空间 维度 上 高 频 分 量 的 大 量 压 缩 
成 为 可 能 。 

一 段 视频 可 以 看 作 在 时 间 (temporal) 维度 上 顺序 播放 的 一 系列 图 像 。 由 于 视频 的 帧 率 通常 
比较 高 (大 于 15 帧 每 秒 )， 并 且 摄 像 头 的 参数 〈 焦 距 、 位 置 、 视 角 等 ) 变化 较 慢 ， 所 以 连续 帧 的 
图 像 内 容 是 很 相似 的 ， 除 非 有 移动 较 快 的 物体 。 换 句 话 说， 视频 在 时 间 维 度 上 存在 元 余 。 

时 间 元 余 通 常 比较 显著 , 利用 这 个 特征 ,不 必 将 每 帧 视频 图 像 都 作为 一 幅 新 的 图 像 进行 编码 ， 
而 是 将 当前 帧 和 其 他 帧 的 差 值 进行 编码 。 如 果 帧 间 的 时 间 宛 余 足够 大 ， 那 么 不 同 的 图 像 只 含有 少 
量 的 信息 和 比较 低 的 粮 ， 这 对 压缩 来 说 是 非常 有 利 的 。 

前 面 提 到 过 ， 一 个 最 简单 的 生成 差 值 图 像 的 方法 就 是 将 一 张 图 像 按 照 像 素 点 值 减 去 另 一 张 图 
像 。 但 是 用 这 种 方法 无 法 实现 高 压缩 率 。 由 于 帧 间 图 像 的 主要 差别 是 由 摄像 头 或 者 物体 的 运动 造 
成 的 ， 所 以 可 以 通过 在 这 些 帧 里 探测 相应 像素 或 区 域 的 移动 并 测量 它们 的 差 值 来 “补偿 ”这 些 运 
动 生成 器 。 采 用 该 方法 的 视频 压缩 算法 称 为 基于 运动 补偿 (MC) 的 压缩 算法 。 这 些 算法 的 三 个 
主要 步骤 是 : 
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1) 运动 估计 (运动 向 量 查找 )。 

2) 基于 运动 补偿 的 预测 。 

3) 预测 误差 的 生成 一 差 值 。 

为 提高 效率 ， 我 们 把 每 张 图 像 分 为 大 小 为 YxN 的 宏 块 (macroblock )。 默 认 情 况 下 ， 亮 度 图 
的 NER 16。 对 于 色 度 图 来 说 ， 如 果 采 用 4 : 2 :0 的 采样 格式 ， 则 N 值 为 8。 运动 补偿 在 像素 级 
别 和 视频 对 象 〈video object) AH) (Ul MPEG-4) 并 不 起 作用 ， 而 是 在 图 像 的 宏 块 级 别 起 作用 。 

当前 帧 称 为 目标 帧 (target frame)。 我 们 要 在 目标 帧 中 的 宏 块 和 参考 帧 〈 前 向 帧 或 后 向 帧 ) 中 
最 相似 的 宏 块 间 寻 找 匹配 。 在 这 种 情况 下 ， 目 标 宏 块 由 参考 宏 块 预测 生成 。 

参考 宏 块 到 目标 宏 块 的 位 移 称 作 运动 向 量 (MV)。 图 10-1 描述 了 前 向 预测 (forward prediction) 
的 情况 ， 前 向 预测 用 以 前 的 帧 作为 参考 帧 进行 预测 。 如 果 参 考 帧 为 以 后 的 帧 ， 则 被 称 为 后 向 预测 
(backward prediction)。 这 两 个 宏 块 间 的 差 值 就 是 预测 误差 。 

对 于 基于 运动 补偿 的 视频 压 参考 帧 Benny 
缩 来 说 ， 在 第 一 帧 后 ， 只 需要 对 
运动 向 量 和 差 值 宏 块 编码 ， 因 为 
这 些 信息 足以 用 于 解码 并 重新 生 
成 完整 的 图 像 。 

在 下 一 节 中 ， 我 们 将 讨论 运 
动向 量 的 查找 算法 ， 接 下 来 讨论 
一 些 常用 的 视频 压缩 标准 ， 其 中 














包括 运动 向 量 的 搜索 算法 。 - 
_ a) BAW b) Aarti 
10.3 ”搜索 运动 向 量 10-1 视频 压缩 中 的 宏 块 和 运动 向 量 


前 面 定义 的 运动 向 量 MV (u,v) 的 搜索 是 一 个 匹配 问题 ， 也 称 为 相关 性 〈correspondence ) 问题 
[1]。 由 于 运动 向 量 搜索 的 计算 十 分 复杂 ， 所 以 常 限制 在 一 个 较 小 的 相 邻 区 域内 。 水 平 位 移 i AE 
直 位 移 j 必须 在 [-p, p 的 范围 之 内 , 其 中 p 是 一 个 取 值 较 小 的 正 整 数 。 图 10-1 所 示 的 搜索 窗口 大 
小 为 (2p+1)x(2p+1)。 宏 块 的 中 心 (xo, yo) 可 以 放 在 窗口 中 的 任何 一 个 单元 格 中 。 

为 了 方便 起 见 , 我 们 用 目标 帧 中 左上 角 的 坐标 值 (x, y) 作为 宏 块 的 原点 。 RCxtkh y+) 为 目 
标 〈 当 前 帧 的 宏 块 中 的 像素 ，R(x+i+k,y+j+/) 为 参考 帧 的 宏 块 中 的 像素 ， 其 中 大和 1 代表 宏 
块 中 的 像素 的 索引 ，i 和 分别 为 水 平和 垂直 的 位 移 。 两 个 宏 块 的 差 可 以 用 它们 的 平均 绝对 误差 
(Mean Absolute Difference, MAD) 来 测量 ， 定 义 为 ; 


N-1N-1 
MAD(, j=} Y, 》 |C@œ+k,y+I)-R(x+i+k,y+ j+I), (10.1) 
N k=0 1=0 
其 中 N 为 宏 块 的 大 小 。 
搜索 的 目标 是 找到 一 个 向 量 (i, j) 作为 运动 向 量 MV = (u,v), EMAD, j) RMA: 
(u,v) =[@, j)| MADG, j) is minimum, ie [—p, p], je [PP]] (10.2) 


在 前 面 的 讨论 中 ， 我 们 使 用 了 平均 绝对 误差 。 尽 管 如 此 ， 这 绝 不 是 唯一 的 可 选 的 方案 。 实 际 
上 ， 一 些 编码 器 〈 比 如 H.263) 会 采用 绝对 误差 和 (Sum of Absolute Difference, SAD) 的 误差 测 
量 方法 ， 还 可 以 采用 一 些 其 他 常用 的 误差 测量 方法 ， 比 如 均 方差 (Mean Square Error, MSE). 
10.3.1 顺序 搜索 

寻找 运动 向 量 最 简单 的 方法 是 顺序 搜索 参考 帧 中 整个 (2p+Dx(2p+D 大 小 的 窗口 (也 称 为 全 
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搜索 )。 将 该 窗口 中 的 每 一 个 宏 块 逐个 像素 地 和 目标 帧 中 的 宏 块 进行 比较 ， 从 式 〈10.1) 得 到 它们 
各 自 的 MAD。MAD 最 小 的 向 量 (i, 力 即 为 目标 帧 中 宏 块 的 运动 向 量 MV (u,v) 。 


程序 10-1 运动 向 量 : 顺序 搜索 
BEGIN 


min.MAD = LARGE NUMBER, /* Initialization */ 
fori=~ptop 
forj=—ptop 
{ 


cur -MAD = MADii, j); 
ifcur_MAD < min- MAD 


min.MAD = cur.MAD,; 
u=i; /* Get the coordinates for MV. */ 
v=j; 
} 
} 


END 

显然 ， 顺 序 搜索 算法 的 代价 是 相当 高 的 。 从 式 〈10.1) 可 以 看 出 ， 每 一 个 像素 的 比较 需要 三 
个 操作 ( 相 减 、 绝 对 值 、 相 加 ). 因此 获取 一 个 宏 块 的 运动 向 量 的 复杂 度 为 (2p+1D:(2p+1TD:N? .3 之 
O(p2N2) 。 

举 一 个 例子 ， 假 设 视 频 的 分 辩 率 为 720x480 ， 帧 率 为 30fps。 再 假设 p=15，N=16， 那 么 搜索 
每 一 个 运动 向 量 的 运算 量 为 : 

(2p+1)* -N? -3=31 x16? x3. 

考虑 到 一 个 图 像 帧 有 -xxA 个 宏志 每 秒 有 30 帧 图 像 ， 所 以 每 秒 的 运算 量 为 ; 


OPS_per_second = (2p +1)” -N? 3 E30 


= 312 x16? x3 x 20X480 39 = 29.8910", 
16x16 


这 显然 使 得 视频 的 实时 编码 变 得 十 分 困难 。 
10.3.2 2D 对 数 搜索 


对 数 搜索 (Logarithmic Search) 虽然 不 是 最 优 方法 ， 但 通常 是 非常 有 效 的 一 个 办 法 ， 而 且 代 
价 较 低 。2D 对 数 搜索 的 方法 搜索 运动 向 量 的 过 程 中 需要 进行 多 次 迭代 ， 类 似 折 半 查找 过 程 。 如 
图 10-2 Pia, 在 搜索 窗口 中 只 有 9 个 位 置 被 标记 为 “1”， 它 们 作为 基于 平均 绝对 误差 搜索 的 起 始 
位 置 。 当 MAD 最 小 值 的 位 置 确定 后 ， 将 新 的 搜索 区 域 中 心 移动 到 该 位 置 ， 搜 索 的 步 长 〈 偏 移 ) 
减 半 。 在 下 一 次 迭代 中 ，9 个 新 的 位 置 被 标记 为 “2”， 依 此 类 推 6。 设 目标 帧 中 宏 块 的 中 心 位 置 为 
oy): RRAHU TF: 


程序 10-2 运动 向 量 的 2D 对 数 搜索 
BEGIN 
offset = [Ẹ]; 
Specify nine macroblocks within the search window in the Reference frame, 


they are centered at (xo, yo) and separated by offset horizontally and/or vertically; 
WHILE last # TRUE 


O ”这 个 过 程 是 启发 式 的 。 它 很 设 图 像 内 容 具 有 一 般 意义 上 的 连贯 性 (单调 性 ) 一 一 在 搜索 窗口 中 的 图 像 不 会 随机 变化 。 否 
则 ， 这 个 过 程 就 很 难 找到 最 好 的 匹配 。 
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Find one of the nine specified macroblocks that yields minimum MAD; 
if offeet = 1 then last = TRUE; 

offset = [offset/2]; 

Form a search region with the new offset and new center found; 


} 
END 


(xo ~ P, Yo — P) (xo + P, Yo- P) 














(o ~p, Yo +P) _ Co +P. Yo +p) 
图 10-2 ”运动 向 量 的 2D 对 数 搜索 


在 顺序 搜索 中 ， 需 要 同 参考 帧 进行 (2p + 了 ?次 宏 块 间 的 比较 ， 而 在 2D 对 数 搜索 中 只 需 进行 
9.diog; p]+) KERER. REE MAES (log p1+D+1 次 ， 因 为 上 一 次 迭代 所 生成 的 [292] 
最 小 MAD 在 下 一 次 选 代 中 可 以 直接 使 用 ， 无 需 再 次 计算 。 因 此 ， 计 算 复 杂 度 降 为 Odog p.N?) 。 

由 于 六 通常 情况 下 和 N 是 一 个 数量 级 的 ， 所 以 与 O(p?N?) 相 比 ， 已 经 得 到 非常 明显 的 改善 。 

采用 上 一 节 例子 中 的 数据 ， 每 秒 的 运算 量 将 为 : 
720x480 

NN 


720x480 
16x16 


OPS _ per _ second = (8-([log2 p |+1)+1)-N7-3 30 


= (8-[log, 15]+9)x167 x3x x30 





= 1.25x10". 


10.3.3 ”分 层 搜索 


运动 向 量 的 搜索 采用 分 层 的 方法 〈 多 分 辨 率 ) 也 有 诸多 好 处 ， 在 该 方法 中 ， 初 始 的 运动 向 量 
估计 是 从 显著 降低 分 辩 率 后 的 图 像 中 获得 的 。 图 10-3 描述 了 一 个 3 层 的 搜索 算法 ,原始 图 像 为 第 
0 层 ， 第 1 层 和 第 2 层 的 图 像 是 通过 将 上 一 层 图 像 的 分 辩 率 减 半 而 获得 的 。 初 始 的 搜索 从 第 2 层 
开始 。 由 于 宏 块 变 小 了 ，p 值 也 随 之 正比 例 的 减 小 ， 这 一 层 的 计算 量 也 大 大 的 缩减 减 小 为 原来 [293] 
的 1/16). 

由 于 图 像 的 分 辨 率 低 以 及 缺少 图 像 细节 内 容 ， 所 以 初始 的 运动 向 量 估计 值 是 比较 粗粮 的 。 
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但 是 这 个 值 会 一 层 层 地 进行 修正 ， 直 到 第 0 层 。 假 设 第 大 层 
运动 向 量 的 估计 值 为 (4*,v*) ,那么 第 k-1 层 将 以 (2.u*,2.v*) 
为 中 心 ， 在 3x3 的 区 域内 进行 搜索 ， 从 而 修正 运动 向 量 的 估 
HHE. MAS, Bk 层 对 运动 向 量 的 修正 必须 使 修正 后 
的 运动 向 量 值 (uk vk) 满足 
(2u* -1<u*" < 2u* +1, 2vk-1<v*" <2v* +1) 
并 得 到 该 宏 块 的 最 小 MAD。 
W(x, yo) 代表 目标 帧 中 第 k 层 某 宏 块 的 中 心 。 目 标 帧 
的 中 心 为 (x0,y0) 的 宏 块 的 分 层 运动 向 量 搜索 算法 的 过 程 : 
如 下 : 图 10-3 一 个 3 层 的 运动 向 量 搜索 
程序 10-3 ”次 运动 向 量 : 分 层 搜 索 





BEGIN 


// Get macroblock center position at the lowest resolution level k, e.g., level 2. 
k Ojak. 类 0 jak. 
Xx0 = 0 Y= yg /2k; 


Use Sequential (or 2D Logarithmic) search method to get initial estimated MV(u*, y*) 
at level k; 
WHILE last 4 TRUE 

{ 


Find one of the nine macroblocks that yields minimum MAD 
at level k — 1 centered at 


Qag tu") -1 <x 2 tuk) +1, 206 +) 1 <y < 204 + FD; 
ifk =1 then last = TRUE; 
k=k-1; 


Assign (x4, yk) and (uk, uk) with the new center location and motion vector; 
} 
END 


我 们 将 使 用 前 面相 同 的 例子 来 计算 在 三 层 的 分 层 搜索 中 每 秒 所 需要 的 计算 量 。 为 了 简便 起 
见 ， 初 始 化 时 生成 多 分 辩 率 的 目标 帧 和 参考 帧 的 计算 将 不 考虑 在 内 ， 并 且 我 们 假设 每 一 层 的 搜索 
中 采用 顺序 搜索 的 办 法 。 


同样， 每 秒 处 理 的 宏 块 数 仍 为 了 <x30 。 但 处 理 每 一 个 宏 块 所 需要 的 计算 量 减少 为 ，; 
2 2 2 
(l (*) s(x] sam pe 
294 4 4 2 
因此 
2 2 2 
ops prs =| (2f +!] F +9( 3) sam 





E X40 0 
N-N 
2 
| | 这 +249 162 x3x 20X480 39 
4 4 16x16 


= 0.51x10° 
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K 10-1 总 结 了 这 三 种 运动 向 量 搜索 方法 在 视频 图 像 的 分 辨 率 为 720x480 , WEA 30, p 值 
分 别 为 15 和 7 时 的 性 能 优 劣 。 


表 10-1 运动 向 量 搜索 方法 计算 代价 的 对 比 








OPS_per_second for 720x480 at 30 fps 






p=15 
29.89x10° 
1.25x10° 
0.51x10° 








顺序 搜索 
2D 对 数 搜索 
3 层 层次 搜索 


7.00x10° 
0.78x10° 
0.40x10° 












10.4 H.261 


H.261 是 一 种 早期 的 数字 电视 压缩 标准 。 因 为 它 的 基于 运动 补偿 的 压缩 思想 在 后 来 所 有 的 压 
缩 标准 中 仍然 采用 ， 所 以 我 们 将 首先 讨论 H.261。 

国际 电报 电话 咨询 委员 会 (CCITT) 在 1988 年 提出 了 H.261 标准 ， 该 标准 于 1990 年 被 国际 
电信 联盟 电信 标准 组 织 ITU-T〈CCITT 的 前 身 ) 所 采纳 [2]。 

这 个 标准 是 为 了 在 ISDN 上 进行 可 视 电 话 、 视 频 会 议和 提供 其 他 视听 服务 而 制定 的 。 最 初 ， 
希望 它 能 支持 多 个 〈1~5 个 ) 384kps 的 信道 。 但 是 ， 视 频 编 码 器 只 提供 px64 kbps MAGA (p 的 
取 值 范围 为 1~30)。 因 此 ， 该 标准 也 称 作 px64 标准 ， 读 作 “p Æ 64”。 该 标准 要 求 视 频 编码 器 的 
延迟 必须 低 于 150ms， 以 便于 视频 能 够 用 于 实时 的 双向 视频 会 议 。 

H.261 属于 下 列 ITU 为 可 视 电话 系统 推荐 的 一 系列 标准 : 

。H.221 支持 64kbps~1920kbps 的 视听 信道 的 帧 格式 。 

。H.230 视听 系统 中 的 帧 控制 信号 。 

。H.242 ”视听 通信 协议 。 

。H.261 速率 为 px64kbps 的 用 于 视听 服务 的 视频 编码 /解码 器 。 

。H.320 ”传输 率 为 px64kbps 的 罕 带 视听 终端 标准 。 

K 10-2 FH T H.261 支持 的 视频 格式 。H.261 中 的 色 度 二 次 采样 采用 了 4:2:0 的 格式 。 考 虑 
到 当时 网 络 通信 的 能 为 比较 差 ， 指 定 H.261 必须 支持 CCIR 的 QCIF， 而 对 CIF 的 支持 是 可 选 的 。 


表 10-2 H.261 支持 的 视频 格式 


码 率 (Mbps) 
176x144 88x72 9.1 

图 10-4 描述 了 一 个 典型 的 H.261 WFYI. EXE E LT PPS AY A) Hew: I wi Cintra-frames ) 
All P Wi Cinter-frames )。 

I 帧 被 视 为 独立 的 图 像 。 基 本 上 ， 在 每 一 个 I A | 
帧 内 应 用 和 JPEG 相似 的 变换 编码 方法 , 因此 被 称 
作 “intra”. | ʻA 

P 帧 不 是 独立 的 。 它 们 采用 的 是 前 向 预测 的 3 
编码 方法 ， 在 该 方法 中 当前 宏 块 是 通过 先前 的 I EKZ 
帧 或 者 P 帧 中 相似 的 宏 块 预测 出 来 的 ， 并 对 宏 块 i? P cP P P A 
间 的 差 (difference) 进行 编码 。 因 此 ，P 帧 的 编 10-4 H.261 的 帧 序列 










H.261 支持 


多 = 


i la 
产 
-一 





多 | 
> 
P 
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码 中 包含 时 间 宛 余 消 除 ， 而 工 帧 的 编码 只 能 对 空间 元 余 进 行 消除 。 要 记 住 ， 从 一 个 先前 的 P WR 
进行 预测 是 允许 的 《不 只 是 从 先前 的 工 帧 进行 预测 )。 

两 个 工 帧 之 间 的 间隔 是 可 变 的 ， 这 是 由 编码 器 所 决定 的 。 通 常 ， 一 个 普通 的 数字 视频 每 秒 有 

一 对 I 帧 , H.261 标准 中 运动 向 量 的 测量 是 以 整个 像素 为 单位 的 , 限制 范围 为 +15 像素 即 p 值 为 15)。 


10.4.1 1 帧 编码 
FHERR Y 帧 中 16x16 的 像素 块 。 因 为 采用 了 4:2:0 的 色 度 二 次 采样 ， 所 以 在 Cb 帧 和 Cr 
帧 中 ， 对 应 为 8x8 大 小 的 区 域 。 因 此 ， 一 个 宏 块 由 4 个 Y 块 ,1 个 Cb，1 个 Cr 和 8x8 的 块 组 成 。 


对 每 一 个 8x8 的 子 块 ， 都 要 进行 离散 余弦 变换 。 同 JPEG 算法 (在 第 9 章 中 详细 讨论 过 ) 一 
样 ,离散 余弦 变换 后 的 DCT 系数 也 需要 进行 量化 。 最 后 , 通过 Z 字 扫 描 并 进行 业 编 码 ( 如 图 10-5 


所 示 )。 
por Lo [warek ES 口 
Y 一 一 人 
I 帧 


对 每 个 8x8 的 块 







1010010... 


图 10-5 工 帧 编码 


10.4.2 P 帧 预测 编码 


图 10-6 Æ H.261 中 基于 运动 补偿 的 P 帧 编码 方案 。 对 目标 帧 中 的 每 一 个 宏 块 来 说 ， 我 们 
通过 前 面 讨论 的 3 种 方法 中 的 任意 一 种 进行 运动 向 量 的 分 配 。 接 着 ,再 用 差 值 宏 块 测量 预测 误 
差 (prediction error)。 同 样 ， 宏 块 由 4 个 Y 子 块 、 一 个 Cb 子 块 和 一 个 Cr FRAM. 这些 8x8 
的 子 块 都 需要 经 过 离散 余弦 变换 、 量 化 、Z 字 扫 描 和 炉 编 码 四 个 步 邓 。 而 且 ， 运 动向 量 也 需要 
编码 。 


差分 宏 块 
Y 


JB 


| 
对 每 个 8x8 的 块 





01100010... 
图 10-6 H.261 中 基于 运动 补偿 的 P 帧 编码 
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有 时 ， 预 测 误差 超过 了 一 个 我 们 可 以 接受 的 水 平 ， 因 此 找 不 到 一 个 更 好 的 匹配 。 在 这 种 情况 
F, 就 需要 将 宏 块 本 身 进行 编码 ( 当 作 一 个 1 帧 ), 该 宏 块 也 称 为 未 进行 运动 补偿 的 宏 块 (non-motion- 
compensated macroblock )。 

P 帧 编码 是 将 宏 块 间 的 差 值 进行 编码 ， 而 不 是 对 目标 宏 块 本 身 进行 编码 。 因 为 宏 块 间 差 值 的 
和 通 常 比 目 标 宏 块 的 业 小 很 多 ， 所 以 通过 这 样 的 方法 可 以 得 到 一 个 比较 大 的 压缩 率 。 

实际 上 ， 运 动向 量 也 不 是 直接 编码 的 ， 而 是 将 前 一 个 宏 块 的 运动 向 量 和 当前 宏 块 运动 向 量 的 
差 值 MVD 送 到 编码 器 进行 编码 ; 

MVD = MV preceding -MV current (10.3) 


10.4.3 H.261 的 量化 


H.261 标准 中 的 量化 没有 像 JPEG 和 MPEG 那样 采用 8X8 量化 矩阵 ， 而 是 对 一 个 宏 块 中 所 有 
的 DCT 系数 均 采 用 一 个 常数 ， 称 为 步 长 〈step-size )。 

根据 需要 (例如 视频 的 码 率 控制 )， 步 长 可 以 取 2~62 中 的 任何 一 个 偶数 值 ， 共 31 种 取 值 。 
但 是 有 一 个 例外 ， 帧 内 编码 中 DC 系数 总 是 采用 8 作为 步 长 。 如 果 使 用 DCT 和 QDCT 表示 量化 
前 后 的 DCT 系数 ， 那 么 帧 内 编码 中 的 DC 系数 是 : 














DCT DCT 
DCT = d = d 
2 roun E _ size | roun | 8 | (10.4) 
其 他 的 系数 是 : 
DCT DCT 
opcr-| - l-l | (10.5) 
step _ size 2x scale 


其 中 scale 是 [1，31] 上 的 一 个 整数 。 

在 8.4.1 节 中 讨论 过 的 中 宽 量化 器 中 ， 通 常 采用 四 舍 五 入 的 方式 进行 量化 (使 用 round 运算 
符 )。 式 10.4 使 用 的 就 是 这 种 量化 器 。 但 式 10.5 使 用 的 是 floor 操作 符 ， 因 此 在 量化 空间 中 留 
下 一 个 中 心 死 区 (如 图 9-8 所 示 )， 其 中 很 多 值 都 被 映射 为 0。 


10.4.4 H.261 编码 器 和 解码 器 


图 10-7 分 别 说 明了 H.261 编码 器 和 解码 器 工作 的 全 过 程 。 在 这 里 ，C 和 @- 分 别 代 表 量 化 和 其 
逆 过 程 。 帧 内 编码 和 帧 间 编 码 模式 可 以 通过 一 个 多 路 转换 器 进行 切换 。 要 避免 编码 误差 的 传播 ， 

。 通 常 视频 中 每 秒 将 一 个 I 频 发 送 两 次 。 

。 如 前 面 所 讨论 的 〈 见 6.3.5 节 中 的 DPCM)， 解 码 帧 〈 不 是 原始 帧 ) 在 运动 估计 中 作为 

参考 帧 。 

为 了 分 析 编 码 器 和 解码 器 的 工作 过 程 ， 在 这 里 我 们 引入 了 一 个 1 、R 和 已 三 帧 先进 行 编 码 再 
解码 的 场景 。 在 表 10-3 MH 10-4 中 列 出 了 经 过 观察 点 的 数据 变化 情况 ， 观 察 点 在 图 10-7 中 用 画 
圈 的 数字 表示 。 我 们 把 1 、 五 和 号 当 作 初 始 数据 ，7 、 月 和 局 是 解码 后 的 数据 (与 原 数据 相 比 是 
有 损耗 的 )，B AN Py 是 帧 间 编 码 中 的 预测 图 像 。 
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图 10-7 H.261 


表 10-3 H.261 编码 器 上 观察 点 处 的 数据 流 3210-4 H.261 解码 器 上 观 家 点 处 的 数据 流 





在 编码 器 中 ， 当 前 帧 为 1 帧 时 ， 观 察 点 1 从 I 帧 中 接收 宏 块 ， 在 表 10-3 中 用 7 表示 。 每 一 个 
1 经 过 离散 余弦 变换 、 量 化 、 燃 编码 ， 将 结果 放 入 输出 缓冲 区 中 ， 准 备 发 送 。 

AS, 7 量化 后 的 DCT 系数 被 送 到 O M IDCT 模块 进行 量化 逆 变 换 和 逆 离 散 余 蓄 变 换 ， 把 
观察 点 4 得 到 的 数据 记 为 了 。 把 观察 点 $ 的 0 输入 和 观察 点 4 的 数据 相 加 ， 观 察 点 6 仍然 得 到 数 
据 T， 并 保存 在 帧 内 存 中 ， 用 于 下 一 帧 B 的 运动 估计 和 基于 运动 补偿 的 预测 。 

量化 控制 就 是 反馈 控制 ， 即 当 输 出 缓冲 区 快要 占 满 时 ， 量 化 步 长 就 要 增加 ， 以 减少 编码 数据 
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的 大 小 。 这 个 过 程 叫 编 码 率 控制 过 程 encoding rate control process )。 

当 接 下 来 的 当前 帧 B 到 达观 察 点 1 时 ， 立 即 调用 运动 估计 过 程 ， 在 帧 了 中 为 BR 中 的 每 一 个 宏 
块 寻 找 最 匹配 的 宏 块 ， 求 得 运动 向 量 。 这 个 运动 向 量 的 估计 值 同 时 被 送 到 基于 运动 补偿 的 预测 器 
(MC-based prediction) 和 可 变 长 度 编码 器 (VLC)。 基 于 运动 补偿 的 预测 器 给 出 五 中 最 匹配 的 宏 
块 ， 在 观察 点 2 用 RB 表示 。 

在 观察 点 3， 得 到 预测 误差 ， 其 值 为 D = R -RB 。 接 着 ，Di 经 过 离散 余弦 变换 、 量 化 和 粹 编 
码 ， 将 结果 送 入 输出 缓冲 区 中 。 和 前 面 一 样 ， Di 中 离散 余弦 变换 的 参数 被 送 至 CO 和 IJDCT 模块 
进行 量化 逆 变 换 和 逆 离 散 余弦 变换 ， 在 观察 点 4 得 到 户 | 。 

在 观察 点 6， 访 和 BB 相 加 ， 得 到 访 ， 并 存放 在 帧 内 存 中 ， 用 于 下 一 帧 妃 的 运动 估计 和 基于 
运动 补偿 的 预测 。 己 的 编码 过 程 和 A 的 编码 过 程 非常 相似 ， 只 是 当前 帧 变 为 马 ， 而 B 变 为 参考 帧 。 

在 解码 器 中 ， 输 入 的 数据 首先 会 经 过 入 解 码 、 量 化 逆 变 换 和 北 离 散 余 弦 变 换 三 个 过 程 。 对 于 
I 帧 ， 解 码 后 的 数据 首先 出 现在 观察 点 1， 接 着 是 在 观察 点 4， 用 7 表示 。 了 被 当 作 第 一 个 输出 帧 ， 
并 且 同 时 送 到 帧 内 存 中 进行 保存 。 

随后 ， 五 作为 帧 间 输 入 码 进行 解码 ， 在 观察 点 1 得 到 预测 误差 D. 。 由 于 当前 宏 块 的 运动 向 
量 也 进行 了 灶 解 码 且 被 送 往 基于 运动 补偿 的 预测 器 ， 所 以 相应 的 预测 宏 块 BF 可 以 在 7 中 找到 ， 并 
在 观察 点 2、3 得 到 结果 。 在 观察 点 4，BY 和 D 相 加 得 到 襄 。 户 作为 解码 后 的 帧 输出 ， 同 时 存放 
FEMA FE. P IPRS PEA P 的 解码 过 程 相似 。 


10.4.5 H.261 视频 位 流 语法 概述 

下 面 简要 介绍 H.261 视频 位 流 的 语法 〈 见 图 10-8)。 这 是 一 个 分 层 的 结构 ， 共 有 四 层 ， 图 像 
层 (Picture Layer), 2A (Group of Block Layer，GOB)、 宏 块 层 (Macro Block Layer, MB) 和 
HÆ (Block Layer). 

1. ARE 

图 像 起 始 码 (Picture Start Code ,PSC) 标 记 了 图 像 之 间 的 界限 。 时 间 参 考 (Temporal Reference, 
TR) 提供 该 图 像 的 时 间 戳 。 由 于 有 时 进行 时 间 二 次 采样 而 导致 有 些 图 像 不 能 被 发 送 ， 所 以 TR 在 
保持 视频 和 音频 的 同步 中 是 非常 重要 的 。 PType (图 像 类 型 ) 指定 该 图 像 的 格式 ， 如 CIF E QCIF. 








PSC ”图 片 开始 码 TR HAER 
PType ”图 片 类 型 GOB 块 组 

GBSC GOB 开始 码 GN 组 号 
GQuant GOB 量化 器 MB ZH 
MQuant MB 量化 器 MVD 运动 向 量 数据 
CBP AERAR EOB HAR 


10-8 H.261 视频 码 流 中 的 语法 
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2. RE 
在 H.261 标准 中 ， 图 像 被 分 割 为 11x3 大 小 的 宏 块 〈 即 在 亮度 图 像 中 为 176x48 像素 大 小 ) 的 


Kik, 每 一 个 区 域 称 为 一 个 块 组 (GOB). 10-9 描述 了 三 6080 GOBI | 
CIF 和 QCIF 亮度 图 像 中 块 组 的 排列 。 例 如 ， 在 CIF 图 中 | GOB2 | GOB3 





有 2x6 个 块 组 ， 相 应 图 像 的 分 辩 率 为 352x288。 -Go84 COBS | GOB I 
每 一 个 块 组 都 有 自己 的 起 始 码 (GBSC) 和 组 号 (GN)。 | GoB8 | GOB9 GOB | 
起 始 码 是 唯一 的 ， 不 必 对 整个 位 流 中 的 变 长 编码 进行 解码 | GOB 10 GOB 1 | QCIF 


就 可 以 识别 出 起 始 码 。 在 网 络 发 生 错 误导 致 一 个 比特 的 数 CIF 
据 错 误 或 者 一 些 数据 丢失 的 情况 下 ,采用 H.261 标准 的 视 110-9 H.261 亮度 图 的 组 块 设置 
频 可 以 在 下 一 个 可 识别 的 块 组 到 来 时 进行 数据 恢复 和 重新 同步 ， 从 而 避免 错误 的 传播 。 

GQuant 表示 在 组 块 中 将 使 用 的 量化 器 ， 除 非 被 后 来 的 宏 块 量化 器 (Macroblock Quantizer, 
MQuant) 所 取代 。GQuant 和 MQuant 在 式 10.5 中 由 scale 表示 。 

3. ERE 

每 一 个 宏 块 (MB) 都 有 自己 的 地 址 ， 指 明 它 在 组 块 中 的 位 置 。 每 个 宏 块 还 包括 所 采用 的 量 
化 器 CMQuant) 以 及 六 个 8x8 的 图 像 子 块 (4Y，1Cb，1Cr)。 类 型 〈Type) 指明 该 块 是 帧 内 块 还 
是 帧 间 块 ， 有 没有 运动 补偿 等 。 运 动向 量 的 数据 (MVD) 是 通过 求 先前 宏 块 和 当前 宏 块 之 间 的 差 
值 而 得 到 的 。 此 外 ， 由 于 在 运动 估计 中 ， 某 些 宏 块 得 到 了 很 精确 的 估计 ， 而 有 些 估 计 效 果 却 很 差 ， 
所 以 用 一 位 掩 码 (Coded Block Pattern, CBP) 表示 该 信息 。 只 有 估计 值 精确 的 块 才 传送 其 DCT 系数 。 

4. RE 

对 于 每 一 个 8x8 的 图 像 子 块 来 说 , 位 流 都 是 从 DC 值 开始 , 接着 是 成 对 的 AC 的 0 游 长 (Run) 
和 紧 接 的 非 0 值 (Level)， 最 后 是 结束 符 (EOB )。“Run” 取 值 范 围 为 [0，63]。“Level” 反 映 出 量 
化 值 ， 范 围 为 [-127，127]， 且 Levelz0。 


10.5 H.263 


H.263 是 一 个 经 过 改进 的 视频 编码 标准 [3]， 主 要 用 于 公共 电话 交换 网 络 (PSTN) 上 的 视频 会 
议 或 其 他 可 视 化 服务 传输 。 它 旨 在 以 尽 可 能 低 的 〈64kpbs LAF) 码 率 进行 通信 。H.263 在 1995 
年 被 ITU-T 所 采纳 。 和 H.261 相似 ， 它 在 帧 间 编 码 中 采用 预测 编码 来 减少 时 间 宛 余 信 息 ， 对 剩 下 
的 信号 采用 变换 编码 来 减少 空间 宛 余 信息 〈 如 帧 内 编码 及 帧 间 预 测 的 差分 宏 块 )。 

除了 CIF 和 QCIF 之 外 ，H.263 还 支持 sub-QCIF. 16CIF 和 16CIF 格式 的 视频 。 表 10-5 总 结 
了 H.263 支持 的 视频 格式 。 如 果 不 进行 压缩 并 且 设 定 30fps 的 帧 率 , 高 分 辩 率 的 视频 (如 16CIF) 
所 占用 的 带宽 将 非常 大 (>500Mbps)。 对 于 压缩 的 视频 来 说 ， 标 准 规定 了 每 幅 图 像 的 最 大 码 率 
(BPPmaxKb)， 单 位 是 1024b(1K)。 实 际 上 ， 压 缩 后 的 H.263 视频 可 以 达到 较 低 的 码 率 。 


表 10-5 H.263 支持 的 视频 格式 


(Mbps) ( ) 
亮度 图 像 分 辩 率 色 度 图 像 分 辩 率 FÆ (Mops FE 《kbps 
《如 果 是 30fps 或 未 压缩 ) | BPPmaxKb 压缩) 
4.4 


128x96 64x48 
176x144 
352x288 
704x576 
1408x1152 













88x72 9.1 


36.5 








176x144 
352x288 
704x576 
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和 H.261 相同 ，H.263 标准 同样 支持 组 块 的 概念 。 不 同 的 是 ，H.263 PAR (GOB) RAM 
定 的 大 小 ， 它 们 总 是 起 止 于 图 像 的 左右 边界 。 如 图 10-10 所 示 ， 每 一 个 QCIF 亮度 图 像 包括 9 个 
组 块 ， 每 一 个 组 块 大 小 为 11x1MB (176x16 RR): 而 每 一 个 4CIF 亮度 图 像 包括 18 个 组 块 ， 每 
一 个 组 块 大 小 为 44x2MB (704x32 像素 )。 303 








CIF、4CIF 和 16CIF 





图 10-10 H.263 亮度 图 中 的 块 组 的 设置 


10.5.1 H.263 的 运动 补偿 


H.263 中 的 运动 补偿 过 程 和 261 中 的 运动 补偿 过 程 相似 。 但 是 ， 运 动向 量 (MV) 不 只 是 从 
当前 宏 块 产生 的 。MV 的 水 平分 量 和 垂直 分 量 分 别 由 当前 宏 块 左 方 、 上 方 和 右上 方 宏 块 的 运动 分 
量 (MV1, MV2, MV3) 的 水 平分 量 和 垂直 分 量 的 平均 值 预测 得 出 〈 见 图 10-11a)。 也 就 是 说 ， 
宏 块 的 运动 向 量 MV u, v) 为 ， 


Up = median(ui, uz, U3), (10.6) 
Vp = median(vi, v2, v3). , 


MV 当前 运动 向 量 
| prajm MV1 前 一 个 运动 向 量 

MV2 上 一 个 运动 向 量 
MV3 右上 运动 向 量 


a) 当前 宏 块 的 预测 运动 向 量 是 (MV1，MV2，MV3) 的 中 值 


| | 
peas] wp) [fo 
pole] p 
| I 
一 一 一 边界 
bD 当前 宏 块 是 图 像 或 者 块 组 的 边缘 处 时 ， 指 定 运动 向 量 的 特殊 方法 
图 10-11 H.263 的 运动 向 量 预 测 


2 
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在 H.263 中 ， 并 不 是 对 MV u, v) 进行 编码 ， 而 是 对 误差 向 量 (6u,6v) 进行 编码 ， 其 中 
6u=k-xp ，6v=v-vp 。 如 图 10-11b 所 示 ， 如 果 当 前 宏 块 在 图 像 或 组 块 的 边界 时 ， 使 用 (0，0) 
或 者 MVI 作为 边界 外 宏 块 的 运动 向 量 。 

为 了 改善 运动 补偿 的 效果 ， 也 就 是 说 减少 预测 的 误差 ，H.263 支持 半 像 素 精 度 (half-pixel 
precision) 的 预测 ， 而 H.261 只 支持 完整 像素 精度 的 预测 。MV wy, v) 中 水 平 向 量 u 和 垂直 向 量 
v 的 默认 取 值 范围 为 [-16,15.5] 。 

半 像 素 位 置 的 像素 值 是 通过 双 线 形 插 值 (bilinear interpolation) 方法 得 到 的 , 如 图 10-12 所 示 。 
图 中 A、B、C、D 和 a、b、c、d 分 





全 像素 位 置 
别 代 表 全 像素 位 置 和 半 像 素 位 置 ， SEROR 
“j” 表示 整除 。 
10.5.2 H.263 的 可 选编 码 模式 a=A 
除了 核心 编码 算法 外 ，H.263 在 b=(A+B+1)/2 
附件 中 指定 了 许多 可 选 的 编码 方法 。 c=(A+C+1)/2 
四 个 常用 的 算法 如 下 ; d=(A+B+C+D+2)/4 


。 无 限制 的 运动 向 量 模 式 图 10-12 H.263 通过 双 线 性 插值 进行 半 像 素 精度 的 预测 

参考 的 像素 不 再 限制 在 图 像 的 边界 内 。 当 运动 向 量 指向 图 像 边界 时 ， 将 使 用 边界 上 几何 位 置 
最 靠近 参考 像素 的 像素 点 的 值 。 当 图 像 内 容 在 边界 上 移动 时 这 种 方式 是 非常 有 利 的 ， 比 如 物体 的 
移动 或 者 摄像 头 的 移动 。 该 模式 也 允许 运动 向 量 取 值 范围 的 扩展 。 运 动向 量 取 值 的 最 大 范围 为 
[-31.5, ，31.5] ， 这 使 得 视频 中 快速 运动 物体 的 编码 变 得 十 分 有 效 。 

。 基 于 语法 的 算术 编码 模式 

与 H.261 相同 ，H.263 使 用 变 长 编码 方法 作为 DCT 系数 的 默认 编码 方法 。 变 长 编码 意味 着 每 
一 个 符号 必须 编码 成 一 个 固定 的 完整 的 字 节 。 采 用 算术 编码 ， 这 种 限制 被 取消 ， 而 且 可 以 达到 更 
高 压缩 率 。 实 验 表 明 ， 使 用 该 方法 ， 帧 间 编 码 可 以 节省 4% 的 码 率 ， 帧 内 编码 可 以 节省 10% 左 右 
的 码 率 。 

和 H.261 相似 ，H.263 的 语法 由 一 个 四 层 的 结构 构成 ， 每 一 层 结合 定 长 或 者 变 长 方式 进行 编 
码 。 在 基于 语法 的 算术 编码 (Syntax-based Arithmetic Coding, SAC) 模式 中 ， 所 有 可 变 长 度 的 编 
码 操作 用 算术 编码 操作 替换 。 根据 每 一 层 的 语法 ,算术 编码 器 需要 将 多 个 分 量 编码 成 不 同 的 位 流 。 
因为 每 个 位 流 都 有 不 同 的 分 布 ， 所 以 H.263 为 每 一 个 分 布 定义 了 一 个 模型 ， 并 且 算 术 编 码 器 在 空 
闲 的 时 候 根据 语法 进行 模型 切换 。 

。 高 级 预测 模式 

该 模式 下 ， 运 动 补偿 中 宏 块 的 大 小 从 16 减 小 到 8。 在 亮度 图 中 ， 每 一 个 宏 块 产生 四 个 运动 向 
E (从 每 一 个 8x8 的 块 )。 然 后 ，8x8 亮度 预测 块 中 的 每 一 个 像素 都 是 由 三 个 预测 值 的 加 权 和 得 到 
的 ， 一 个 是 基于 当前 亮度 块 的 运动 向 量 ， 另 外 两 个 是 当前 块 四 个 邻居 块 中 两 个 块 的 运动 向 量 ， 即 
一 个 是 当前 亮度 块 的 左 邻 块 或 右 邻 块 ， 另 一 个 是 上 邻 块 或 下 邻 块 。 尽 管 传 送 四 个 运动 向 量 会 带 来 
额外 的 开销 ， 但 是 这 种 方式 预测 的 准确 度 较 高 ， 因 此 在 数据 压缩 方面 有 很 好 的 效果 。 

。PB 帧 模式 

MÆ MPEG (在 下 一 章 中 详细 讨论 ) 中 一 样 ， 我 们 引入 了 B 帧 , 它 是 同时 由 先前 帧 和 后 一 帧 
双向 预测 而 得 到 的 。 它 可 以 改善 预测 的 质量 ， 因 此 可 以 在 不 牺牲 画 质 的 条 件 下 提高 压缩 率 。 在 
H.263 中 ,一 个 PB 帧 是 由 两 个 编码 为 一 个 单元 的 图 片 组 成 : 一 个 是 P 帧 ， 从 先前 解码 的 工 帧 或 者 
Pp (或 者 PB 帧 的 P 帧 部 分 ) 预测 得 到 ， 一 个 是 B 帧 ， 同 时 从 先前 解码 的 I 帧 或 者 P 帧 以 及 当 
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前 正在 编码 的 P 帧 预测 得 到 (参见 图 10-13)。 PB Wi 
PB 帧 模式 在 PTYPE 中 使 用 。 因为 P 帧 和 了 B 帧 在 PB 帧 中 一 个 
紧密 耦合 ， 所 以 B 帧 中 的 双向 运动 向 量 不 需要 独立 生成 。 相 IoP B p- 


反 ， 它 们 可 以 首先 得 到 一 个 暂时 的 值 ， 再 通过 了 帧 [4] 的 向 前 
运动 向 量 进行 修正 ， 这 样 可 以 减少 B 帧 上 的 码 率 的 开销 。PB 
帧 模式 在 视频 图 像 变 化 不 太 大 时 可 以 得 到 满意 的 效果 。 在 视 
频 图 像 变 化 比较 大 的 情况 下 ，PB 帧 模式 不 如 B 帧 模式 的 压 
缩 效果 好 。 在 H.263 的 版 本 2 中 提出 了 一 个 增强 型 的 模式 。 


10.5.3 H.263+ 和 H.263++ 


H.263 的 第 二 个 版 本 〈 称 作 H.263+) 在 1998 年 被 ITU-T 
Study Group 16 采纳 。 它 完全 兼容 H.263 版 本 1 中 的 所 有 设计 。 
提出 H.263+ 的 目的 是 为 了 拓展 潜在 的 应 用 ， 并 在 定制 的 源 的 格式 、 不 同 像素 尺寸 比 和 时 钟 频 
率 方面 增加 灵活 性 。H.263 十 包括 多 种 改善 编码 效率 和 差错 恢复 的 建议 [$]。 同 时 ， 除 了 H.263 中 的 
四 种 可 选编 码 模式 之 外 ， 它 还 提供 了 12 种 全 新 的 可 选 的 模式 。 
由 于 H.263+ 是 在 MPEG-1 和 MPEG-2 之 后 开发 的 , 所 以 其 中 吸收 了 很 多 MPEG 标准 的 内 容 。 
下 面 我 们 简单 地 介绍 其 中 的 一 些 内 容 ， 细 节 的 讨论 在 下 一 章 进行 。 
。 在 H.263+ 中 ， 重 新 定义 了 无 限制 的 运动 向 量 模式 。 它 采用 可 逆 变 长 编码 方法 〈(Reversible 
Variable Length Coding, RVLC) 对 运动 向 量 的 差 进行 编码 。RVLC 编码 器 能 进行 正 向 和 道 
向 解码 ， 这 样 就 将 传输 误差 的 影响 减 至 到 最 小 。 运 动向 量 的 取 值 范围 扩大 到 [-256,256] 。 
RVLC 构造 的 细节 可 以 参考 [6，7]。 
。 用 一 个 宏 块 片 slice》 结 构 替 代 组 块 ， 以 达到 更 大 的 灵活 性 。 一 个 宏 块 片 可 以 包括 可 变数 
ATER. 传输 顺序 可 以 是 顺序 的 也 可 以 是 任意 的 , 并 且 宏 块 片 的 形状 也 不 一 定 是 矩形 的 。 
。H.263+ 实 现 了 时 间 、 空 间 、 信 品 比 上 的 可 伸缩 性 。 可 伸缩 性 指 对 多 种 约束 ， 如 显示 分 辨 率 、 
带宽 、 硬 件 功能 的 处 理 能 力 。 用 于 时 间 可 伸缩 性 的 增强 层 通过 在 两 个 P 帧 间 揪 入 B 帧 来 提 
高 预测 质量 。 
信 噪 比 可 伸缩 性 是 通过 使 用 步 长 越 来 越 小 的 量化 器 来 把 附加 的 增强 层 编码 到 位 流 中 来 实现 
的 。 因 此 ， 解 码 器 可 以 根据 计算 和 网 络 限制 来 决定 需要 解码 的 层 数 。 空 间 可 伸缩 性 的 概念 
和 信 品 比 可 伸缩 性 的 概念 相似 。 在 这 种 情况 下 ， 增 强 层 提供 增加 的 空间 分 辨 率 。 
。H.263+ 支 持 改善 的 PB 帧 模式 。 和 版 本 1 不 同 ，B 帧 中 的 两 个 运动 向 量 不 必 由 前 一 个 P 帧 
的 运动 向 量 得 到 。 相 反 ， 它 们 可 以 像 MPEG-1 和 MPEG-2 中 那样 独立 生成 。 


10-13 H.263 中 一 个 PB bi 


。 解 块 过 滤器 在 循环 编码 过 程 中 可 以 减少 阻塞 带 来 的 影响 。 这 个 过 滤器 用 在 四 个 亮度 块 和 两 “ 


个 色 度 块 的 边缘 处 。 系 数 的 权重 依赖 于 块 量化 器 的 步 长 。 利 用 这 种 技术 ， 不 仅 能 取得 很 好 
的 预测 效果 ， 而 且 减 少 了 人 为 的 块 生 成 。 

在 版 本 2 之 后 ，H.263 仍 在 继续 发 展 ， 新 的 版 本 称 作 H.263++[8]。H.263-+ 包 括 H.263 中 的 基 
线 编 码 方法 ， 以 及 增强 型 的 参考 图 片 选择 (Enhanced Reference Picture Selection，ERPS)、 数 据 划 
Tk (Data Partition Slice, DPS) 和 增强 信息 的 附加 方面 的 建议 。 

EPRS 模式 通过 管理 一 个 用 于 存放 图 像 由 的 多 帧 的 缓冲 区 来 运行 ， 可 以 提高 编码 效率 和 错误 
恢复 能 力 。DPS 模式 通过 把 头 数据 和 运动 向 量 从 码 率 中 的 DCT 系数 中 提取 出 来 ， 并 且 通 过 可 逆 
的 编码 方式 来 保护 运动 向 量 ， 来 提供 更 强 的 错误 恢复 能 力 。 附 加 的 增强 信息 可 以 兼容 H.263。 
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10.6 ”进一步 探索 

Tekalp[9] 和 Poynton[10] 疯 定 了 数字 视频 处 理 的 基础 。 它 们 概述 了 解决 视频 中 这 类 问题 的 数学 
基础 。 ` 
Bhaskaran 和 Konstantinides[11]、Ghanbarif12]、Wang[13] 等 的 书 中 对 视频 压缩 算法 进行 了 很 
好 曾 述 ， 并 且 提 出 了 该 问题 中 一 些 有 趣 的 内 容 。 

本 书 网 站 上 第 10 章 的 Further Exploration 中 有 一 些 关 于 H.261、H.263 信息 的 链接 ， 包 括 ; 

。 教程 和 白皮书 。 

。 软件 实现 。 

e H.263/H.263+ 图 书馆 。 

。 基于 Java 的 H.263 解码 器 。 


10.7 练习 

L 我 收藏 了 很 多 JPEG 图 片 〈 在 不 同 地 方 拍 到 的 )， 我 决定 把 它们 放 到 一 个 大 的 H.261 压缩 文件 
中 ， 以 便 整 理 和 访问 。 我 的 想法 是 ， 只 使 用 一 个 浏览 器 ， 把 我 收藏 的 所 有 图 片 整合 在 一 起 ， 创 
建 一 个 视频 。 讨 论 这 个 想法 的 可 行 性 ， 要 考虑 这 些 图 片 可 以 达到 的 压缩 率 。 

2. 在 基于 块 的 视频 编码 中 ， 压 缩 或 者 解压 缩 哪 个 更 有 效 ? 简要 说 明 原 因 。 

3. 一 个 H.261 的 视频 有 三 个 颜色 通道 Y、Cr 和 Cb. 需要 为 每 一 个 通道 计算 运动 向 量 并 进行 传 
输 吗 ? 证 明 你 的 答案 。 如 果 不 是 ， 哪 一 个 通道 被 用 于 运动 补偿 ? 

4. 回答 下 面 用 于 运动 向 量 的 2D 对 数 搜索 的 问题 (WA 10-14)。 
目标 (当前 ) 帧 为 P 帧 。 宏 块 的 大 小 为 4X4。 运 动向 量 是 MV(Ax,Ay) ， 其 中 Axe fp, pl, 
Aye [-p,p] 。 在 这 个 问题 中 ， 假 设 p=5 。 
帧 中 黑色 的 宏 块 左上 角 的 坐标 是 y). CAS 9 个 黑色 的 像素 ， 每 个 像素 的 亮度 值 为 10; 
其 余 7 个 像素 点 是 背景 的 一 部 分 ， 统一 亮度 什 为 100。 参 考 帧 〈 前 一 帧 ) 有 8 个 黑色 像素 点 。 
(a) 求 Ax Ay 的 最 优 值 ， 宏 块 的 平均 绝对 误差 (MAE) 是 多 少 ? 
Cb) 一 步 步 地 说 明 如 何 进行 2D 对 数 搜索 ， 包 括 搜索 的 位 置 和 通道 以 及 Ar 、Ay 和 MAE 的 所 

有 中 间 值 。 
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参考 帧 目标 是 












O 亮度 值 为 10 的 像素 
其 他 是 背景 (未 标识 ) 像素 ， 亮 度 为 100 
10-14 ”运动 向 量 的 2D 对 数 搜索 


5， 运 动向 量 的 对 数 搜索 方法 不 是 最 优 的 ， 因 为 它 依赖 于 残余 帧 的 连续 性 。 
(a) 解释 为 什么 这 个 命题 是 正确 的 ， 给 出 证 明 。 
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(b) 给 出 一 个 该 命题 不 成 立 的 情况 。 

C) 分 层 搜 索 算法 也 不 是 最 优 的 吗 ? 

.一 个 视频 序列 用 H.263 编码 ， 采 用 PB 帧 模式 ， 帧 大 小 为 4CIF， 帧 率 为 30fps， 视 频 长 度 为 90 
分 钟 。 下 面 是 已 知 的 压缩 参数 : 平均 每 秒 进行 两 次 I 帧 编码 ， 达 到 质量 要 求 的 视频 的 1 帧 平均 
压缩 率 为 10 : 1，P 帧 的 压缩 率 平均 是 工 帧 的 两 倍 ，B 帧 的 压缩 率 是 P 帧 的 两 倍 。 假 设 压 缩 参 
数 包 括 所 有 必须 的 数据 头 ， 计 算 压 缩 后 视频 的 大 小 。 

.假设 搜索 窗口 的 大 小 为 2p+1， 在 H.263 的 高 级 预测 模式 下 对 QCIF 视频 进行 运动 评价 的 复杂 
性 是 多 少 ? 使 用 ， 

(a) 顺序 搜索 

(b) 2D 对 数 搜索 方法 

(c) 分 层 搜索 方法 

.讨论 H.263 中 高 级 的 预测 模式 是 如 何 达到 更 好 的 压缩 效果 的 。 

， 在 H.263 的 运动 估计 中 ， 将 先前 三 个 宏 块 〈 参 见 图 10-11a) 运动 向 量 的 中 值 作为 当前 宏 块 的 
预测 值 。 但 是 这 样 的 中 值 不 能 很 好 给 出 最 好 的 预测 。 描 述 在 当前 方法 上 可 能 进行 的 一 些 改善 。 


10，H.263+ 中 允许 在 PB 帧 中 为 B 帧 进行 独立 的 前 向 MV。 和 H.263 的 PB 模式 相 比 ， 它 们 各 有 


哪些 优 缺 点 。 如 果 B 帧 有 独立 的 运动 向 量 ，PB 联合 编码 的 要 点 是 什么 ? 
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第 11 章 MPEG 视频 编码 1: MPEG-1 和 MPEG-2 


11.1 概述 


运动 图 像 专家 组 (MPEG ) 创立 于 1988 年 [1, 2], 主要 负责 为 数字 音频 和 视频 的 传输 制定 标准 。 
其 成 员 从 1988 年 的 25 名 专家 发 展 到 现在 来 自 大约 200 个 公司 和 组 织 的 350 人 的 一 个 团体 [3, 4]. 
各 公司 都 考虑 到 要 在 MPEG 标准 族 中 维护 自己 的 利益 ， 因 此 ， 他 们 仅仅 定义 了 一 个 压缩 位 流 ， 也 
就 是 间接 定义 了 解码 器 。 而 压缩 算法 和 编码 器 是 完全 依赖 于 各 生产 商 的 。 

本 章 我 们 将 研究 MPEG-1 和 MPEG-2 中 一 些 重要 的 设计 问题 。 下 一 章 将 简要 介绍 后 续 标 准 
MPEG-4 和 MPEG-7 的 一 些 基 本 原理 以 及 不 同 点 。 


11.2 MPEG-1 


MPEG-1 音频 /视频 数字 压缩 标准 是 由 国际 标准 化 组 织 /国际 电子 学 委员 会 SOEC) 下 的 
MPEG 组 于 1991 年 11 月 提出 的 , 用 于 至 多 对 1.SMbits 的 数字 存储 媒体 运动 图 像 及 其 伴音 进行 编 
码 [5]。 常 见 的 数字 存储 媒体 包括 光盘 (CD) 和 视频 光盘 (VCD). Æ 1.5Mbps 的 数据 传输 率 中 ， 
1.2Mbps 用 于 已 编码 的 视频 ，256kbps 用 于 立体 声 。 这 样 生成 的 图 像 质量 相当 于 VHS (家 用 视频 
系统 ) 的 质量 ， 声 音质 量 相当 于 CD 的 音频 。 

一 般 来 说 ，MPEG-1 采用 CCIR601 数字 电视 格式 ， 这 种 格式 也 称 为 源 输 入 格式 《Source Input 
Format, SIF). MPEG-1 仪 支持 非 隔行 视频 。 通 常 ， 对 于 30fps 的 帧 速率 ，NTSC 制式 视频 的 图 片 
分 辩 率 是 352x240， 对 于 25 fps 的 帧 速率 ，PAL 制式 视频 的 图 片 分 辨 率 是 352x288。 采 用 4:2:0 进 
行 色 度 二 次 采样 。 

MPEG-1 标准 〈 也 称 为 ISO/TEC 11172 号 建议 [5]) 由 五 部 分 组 成 ，11172-1 系统 、11172-2 W 
频 、11172-3 音频 、11172-4 MPEG 一 致 性 和 11172-5 软件 。 简 单 地 说 ， 在 众多 任务 中 ， 系 统 负责 
将 输出 拆 分 成 位 流 包 ， 进 行 多 路 传输 以 及 将 视频 音频 流 同步 。 为 了 验证 一 个 位 流 或 解码 器 是 否 符 
合 标准 ， 一 致 性 部 分 详细 描述 了 用 于 测试 此 问题 的 设计 。 软 件 部 分 包括 MPEG-1 标准 解码 器 的 完 
整 软件 实现 以 及 一 个 编码 器 的 软件 实现 实例 。 我 们 将 对 MPEG-1 视频 编码 的 主要 特征 进行 分 析 ， 
对 于 MPEG 音频 编码 的 讨论 我 们 留 到 第 14 章 进行 。 


11.2.1 MPEG-1 中 的 运动 补偿 


上 一 章 讨 论 过 ，H.261 中 的 基于 运动 补偿 的 视频 编码 工作 原理 如 下 : 在 运动 估算 中 ， 会 为 目 
标 P 帧 的 每 个 宏 块 分 配 一 个 从 之 前 已 编码 的 I 帧 或 P 帧 的 宏 块 中 选 出 的 与 它 最 匹配 的 宏 块 ， 这 称 
为 预测 prediction)。 当 前 宏 块 与 匹配 的 宏 块 之 间 的 差 称 为 预测 误差 (prediction error)。 这 个 预测 
误差 将 被 传送 到 DCT 和 接 下 来 的 编码 步骤 。 

因为 预测 是 从 前 面 的 帧 得 来 的 ， 所 以 这 种 预测 称 为 前 向 预测 (forward prediction)。 由 于 在 实 
际 场景 中 会 产生 不 可 预测 的 移动 和 遮挡 ， 所 以 目标 宏 块 与 先前 帧 的 宏 块 之 间或 许 不 能 达到 最 佳 匹 
配 。 图 11-1 描述 了 包含 了 半 个 球 的 当前 帧 的 一 个 宏 块 与 先前 帧 的 宏 块 不 能 进行 很 好 匹配 的 情况 。 
因为 球 的 一 半 被 另 一 个 物体 遮挡 住 了 。 但 是 它 从 下 一 帧 可 以 很 容易 的 获得 匹配 。 
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EF fe 


图 11-1 双向 搜索 的 需求 

MPEG 引入 了 第 三 类 帧 B 帧 ) 以 及 相应 的 双向 运动 补偿 。 图 11-2 描述 了 基于 运动 补偿 的 B 
帧 编码 原理 。 除 了 前 向 预测 ， 还 用 到 了 后 向 预测 ， 也 就 是 此 时 用 来 进行 匹配 的 宏 块 是 从 视频 序列 
中 未 来 的 工 帧 或 P 帧 中 获得 的 。 这 样 ，B 帧 的 每 一 个 宏 块 指定 两 个 运动 向 量 。 一 个 由 前 向 预测 得 
来 ， 另 一 个 由 后 向 预测 得 来 。 

如 果 两 个 方向 的 匹配 都 成 功 ， 那 么 两 个 运动 向 量 都 将 被 发 送 ， 在 与 目标 宏 块 进行 比较 产生 预 
测 误差 之 前 ， 将 与 两 个 相应 的 匹配 宏 块 取 平 均 (图 中 用 “%” 表 示 )。 如 果 只 有 一 个 参考 帧 的 匹配 
是 成 功 的 ， 那 么 只 有 一 个 运动 向 量 及 其 相应 的 宏 块 会 被 使 用 ， 或 是 前 向 预测 的 或 是 后 向 预测 的 。 

















| 
对 每 一 个 8x8 的 块 


运动 向 量 


0011101... 
图 11-2 ”基于 双向 运动 补偿 的 B 帧 编码 


图 11-3 描述 了 视频 帧 一 个 可 能 的 序列 。 实 际 帧 的 模式 是 在 编码 时 决定 的 , 在 视频 头 部 有 详细 
描述 。MPEG 用 M 表示 一 个 P 帧 和 它 之 前 的 工 帧 或 者 P 帧 之 间 的 间隔 ，N 表示 两 个 连续 的 1 帧 之 
间 的 间隔 。 在 图 11-3 中 ，M =3，N =9。 一 个 特例 是 当 不 使 用 B 帧 时 ，M =1。 





显示 顺序 I B B P B B 
编码 和 传输 顺序 I P B B P 


B B I B B 
图 11-3 MPEG 帧 序列 
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由 于 MPEG 编码 器 和 解码 器 不 能 用 于 没有 后 续 P 帧 或 I 帧 的 B WER, 所 以 实际 的 译 码 和 传 
313| 输 顺 序 (图 11-3 下 方 所 示 ) 与 视频 的 显示 顺序 (图 11-3 上 方 所 示 ) 是 不 同 的 。 因 此 ， 在 实时 的 
1 | 网 络 传输 中 , 特别 是 在 MPEG 视频 的 传输 中 ,不 可 避免 的 延迟 问题 以 及 对 缓冲 区 的 需求 都 是 极其 
314| 重要 的 问题 。 


11.2.2 与 H.261 的 其 他 主要 区 别 


除了 引入 双向 运动 补偿 (B 帧 ) 外 ，MPEG-1 与 H.261 还 有 以 下 几 个 不 同 : 

。 源 格式 ”H.261 只 支持 CIF (352x288) 和 QCIF (176x144) 两 类 源 格式 。MPEG-1 支持 SIF 
CE NTSC 制式 下 为 352x240， 在 PAL 制式 下 为 352x288)。 而 且 只 要 满足 表 11-1 中 的 约束 
参数 集 (Constrained Parameter Set，CPS)，MPEG-1 还 支持 其 他 格式 规范 。 


表 11-1 MPEG-1 的 约束 参数 集 










图 片 的 水 平 尺 十 
图 片 的 垂直 尺寸 
每 图 片 的 宏 块 数 
每 秒 的 宏 块 数 

帧 率 
码 率 


<396 
<9900 
<30fps 
<1856 kbps 


° ERA 与 H.261 中 的 GOB 不 同 ， 一 幅 MPEG-1 图 片 可 以 被 分 为 一 个 或 多 个 宏 块 片 〈 如 
图 11-4 所 示 )， 这 上 比 GOB 要 灵活 得 多 。 只 要 可 以 填 满 整个 图 片 ， 它 们 可 包含 一 幅 图 片 中 的 
可 变数 目的 宏 块 并 可 以 开始 结束 于 任何 位 置 。 每 个 宏 块 片 都 独立 编码 。 比 如 宏 块 片 在 量化 
器 中 可 以 有 不 同 的 缩放 因子 。 这 为 码 率 控制 提供 了 灵活 性 。 





315 图 11-4 MPEG-1 图 中 的 宏 块 片 


而 且 ， 宏 块 片 的 内 容 对 于 差错 恢复 是 很 重要 的 ， 因 为 每 个 宏 块 片 有 唯一 的 宏 块 片 起 始 码 
(slice_start_code). MPEG 中 的 宏 块 片 类 似 于 H.261 (和 H.263) 中 的 GOB: 它 处 于 MPEG 层次 
结构 的 最 底层 ， 不 需要 将 位 流 中 整个 变 长 编码 组 解码 就 可 进行 完全 恢复 。 

。 量 化 ”MPEG-1 的 量化 对 于 帧 间 编 码 和 帧 内 编码 采用 不 同 的 量化 表 ( 见 表 11-2 和 表 11-3). 

在 一 个 宏 块 内 , 用 于 帧 内 编码 的 量化 器 个 数 是 不 同 的 (参见 表 11-2)。 这 与 H.261 是 不 同 的 。 
对 于 H.261， 一 个 宏 块 内 用 于 AC 系数 的 量化 器 个 数 是 不 变 的 。 
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11-2 PATA (QD 表 11-3 帧 间 编码 的 默认 量化 表 (Q) 
8 16 19 22 26 27 29 34 16 16 16 16 16 16 16 16 
16 16 22 24 27 29 34 37 16 16 16 16 16 16 16 16 
19 22 26 27 29 34 34 38 16 16 16 16 16 16 16 16 
22 22 26 27 29 34 37 40 16 16 16 16 16 16 16 16 
22 26 27 29 32 35 40 48 16 16 16 16 16 16 16 16 
26 27 29 32 35 40 48 58 16 16 16 16 16 16 16 16 
26 27 29 34 38 46 56 69 16 16 16 16 16 16 16 16 
27 29 35 38 46 56 69 83 16 16 16 16 16 16 16 16 


步 长 step_sizefi, NAVA OL, 用 与 缩放 因子 的 乘积 决定 ， 其 中 心 或 CQ 是 上 面 的 量化 表 之 一 ， 
缩放 因子 (scale) 是 [1, 31] 内 的 一 个 整数 。 用 DCT Al QDCT 表示 量化 前 和 量化 后 的 DCT 系数 。 
帧 内 模式 下 的 DCT 系数 为 : 


step _size[ j] Q [i, j]x scale 
帧 间 模式 下 的 DCT 系数 为 : 
aperi j| SPT) | SPT) | (11.2) 
step _ sizeli, j] Q.[i, j]x scale 


EH Q 和 @ 分 别 指 表 11-2 和 表 11-3. 
EA (11.1) 中 用 到 了 round 操作 符 ， 因 此 没有 留 下 任何 无 效 区 。 然 而 ， 在 式 11.2 中 由 于 采 
用 了 floor 操作 符 ， 在 量化 区 域 中 会 留 下 一 个 中 心 无 效 区 。 
。 为 了 增加 基于 运动 补偿 预测 的 精度 ， 减 小 预测 误差 ，MPEG-1 允许 运动 向 量具 有 半 像 素 精 
E (1/2 像素 )。 我 们 在 10.5.1 节 中 讨论 的 H.263 的 双 线 性 插值 (bilinear interpolation) 技术 
可 以 用 来 产生 在 半 像 素 位 置 所 需 的 值 。 
。MPEG-1 支持 IWA P 帧 之 间 有 较 大 的 间距 ， 因 此 会 有 一 个 较 大 的 运动 向 量 搜索 范围 。 与 
H.261 运动 向 量 的 最 大 范围 为 +15 像素 相 比 ，MPEG-1 支持 范围 为 [-512, 511.5] 的 半 像 素 精 
度 以 及 范围 为 [一 1024, 1023] 的 精度 为 全 像素 的 运动 向 量 。 然 而 ， 由 于 图 像 分 辩 率 实际 情况 
的 限制 ， 这 个 最 大 范围 基本 达 不 到 。 
。 MPEG-1 位 流 允许 随机 访问 。 这 已 经 在 图 片 组 (Group of Pictures, GOP) 层 实现 了 ， 在 图 
片 组 层 中 每 一 个 图 片 组 (GOP》 都 按时 间 编 码 。 除 此 之 外 ， 任 一 图 片 组 的 第 一 帧 都 是 一 个 
不 依 束 于 其 他 帧 的 1 帧 。 这 样 ，GOP 层 就 可 以 使 解码 器 在 位 流 中 寻找 一 个 特定 的 位 置 并 从 
那里 开始 解码 。 
表 11-4 列 出 了 所 有 类 型 的 MPEG-1 帧 的 典型 大 小 (单位 为 KB)。 可 见 ， 压 缩 的 P 帧 大 小 明显 
小 于 压缩 的 I 帧 ， 因 为 帧 闻 压 缩 采 用 了 时 间 宛 余 。 显 然 ，B 帧 比 P 帧 更 小 ， 一 部 分 原因 是 采用 了 双 
向 预测 , 而 且 在 考虑 质量 问题 时 B 帧 的 优先 级 往往 比较 低 。 因 此 , 这 样 可 以 得 到 一 个 较 高 的 压缩 率 。 


表 11-4 MPEG-1 帧 的 典型 压缩 性 能 
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11.2.3 MPEG-1 视频 位 流 
图 11-5 描述 了 一 个 MPEG-1 视频 位 流 的 六 层 结构 。 


视频 序列 






序列 层 
图 片 组 层 
图 片 层 
ERKE 
ERE 
pz 


(若是 内 部 宏 块 ) 
图 11-5 MPEG-1 视频 位 流 的 层次 
1 RAE 
一 个 视频 序列 由 一 个 或 多 个 GOP 构成 。 它 通常 以 一 个 序列 头 开始 。 头 中 包含 图 片 的 信息 ， 
如 图 像 水 平 大 小 〈horizontal_size) 和 垂直 大 小 〈vertical_size)、 像 素 长 宽 比 〈pixel_aspect_ratio)、 
帧 率 〈frame_rate)、 码 率 〈bit_rate)、 缓 存 大 小 〈buffer_size) 以 及 量化 矩阵 〈quantization_matrix ) 
等 。 各 GOP 间 的 可 选 序列 头 可 以 用 来 表明 参数 改变 。 
2. GOP Æ 
一 个 GOP 包含 一 张 或 多 张 图 片 ， 其 中 的 一 张 必 为 1 图 。GOP 头 包 含 如 时 间 码 〈time_code) 
这 样 的 信息 ， 用 来 标识 从 序列 开始 到 现在 的 时 -分 - 秒 - 帧 。 
3. BHA 
317 之 前 讨论 过 ， 三 种 常见 的 MPEG-1 图 片 的 类 型 是 I 图 〈 帧 内 编码 )、P 图 (预测 编码 ) 和 B 图 
( | 〈 双 向 预测 编码 )。 但 还 有 一 种 不 常见 的 类 型 一 一 D 图 (DC 编码 )， 这 种 方法 仅 保留 了 DC 系数 。 
318) MPEG-1 中 不 允许 将 D 图 与 其 他 类 型 的 图 混合 ， 这 样 D 图 就 行 不 通 了 。 
4. RRA 
之 前 提 到 过 ，MPEG-1 引入 了 宏 块 片 标识 ， 用 来 进行 码 率 控制 以 及 在 位 丢失 或 受 损 后 进行 恢 
复 和 同步 。 宏 块 片 可 包含 一 张 图 片 中 的 多 个 宏 块 。 每 个 宏 块 片 的 长 度 和 位 置 在 头 部 指定 。 
5 BRE 
每 个 宏 块 由 四 个 了 块 ， 一 个 C 块 ， 一 个 C' 块 组 成 。 所 有 的 块 都 是 8x8 像素 的 。 
6. RA 
如 果 块 是 帧 内 编码 的 ， 将 先 发 送 差分 DC 系数 (如 JPEG 中 DC 的 DPCM)， 接 着 传送 变 长 编 
码 (VLC), FA AC RR. AM, DCM AC 系数 全 部 都 采用 变 长 编码 。 
Mitchell et al[6] 对 不 同 的 MPEG-1 层 头 部 的 详细 信息 进行 了 描述 。 
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11.3 MPEG-2 


MPEG-2 标准 的 发 展 始 于 1990 年 。 与 MPEG-1 这 个 为 在 一 台 计 算 机 的 CD 上 以 较 低 的 码 率 
(1.5Mbps) 存储 和 播放 视频 而 制定 的 标准 不 同 ，MPEG-2[7] 用 于 以 高 于 4Mbps 的 码 率 存储 和 播放 
更 高 质量 的 视频 。 它 最 初 是 作为 数字 广播 电视 的 标准 而 开发 的 。 

在 20 世纪 80 年 代 后 期 ， 人 们 构想 了 一 种 高 级 电视 (Advanced TV，ATV )， 从 而 使 高 清晰 度 
电视 (HDTV ) 通过 因特网 广播 开 来 。 在 MPEG-2 的 发 展 过 程 中 ， 数 字 ATV 在 早期 其 他 各 种 类 似 
的 解决 HDTV 的 方法 中 占有 很 大 优势 。MPEG-2 恰恰 迎合 了 数字 TV/HDTYV 对 压缩 以 及 码 率 的 要 
求 ， 取 代 了 MPEG-3 这 个 最 初 为 HDTV 设计 的 标准 。 

MPEG-2 音频 /视频 压缩 标准 也 称 作 ISO/TIEC13818[8], Æ M ISO/IEC 的 运动 图 像 专家 组 在 1994 
年 11 月 提出 的 。 与 MPEG-1 类 似 ， 它 也 有 系统 、 视 频 、 音 频 、 一 致 性 和 软件 部 分 ， 以 及 其 他 一 
些 方面 。 除 了 广播 数字 电视 ， 在 陆地 、 卫 星 以 及 光线 网 络 方面 ，MPEG-2 也 已 经 被 广泛 接受 ， 并 
用 于 很 多 应 用 中 ， 如 交互 式 电 视 、DVD 等 。 

MPEG-2 为 不 同 的 应 用 (如 低 延 迟 的 视频 会 议 、 可 伸缩 视频 、 HDTV) 定义 了 七 种 规格 : Simple 
CR), Main 〈 主 要)、SNR Scalable (SNR 可 伸缩 )、Spatially Scalable (空间 可 伸缩 )、High (高 )、 
4:2: 2 和 Moultiview (多 视图 )〔〈 两 个 视图 就 被 称 为 立体 视频 )。 在 每 种 规格 中 , 定义 了 由 个 等 级 。 
如 表 11-5 所 示 ， 不 是 所 有 的 规格 都 有 四 个 等 级 。 例 如 ， 简 单 规格 就 仅 有 一 个 主要 等 级 ;然而 高 规 
格 就 没有 低 等 级 。 


表 11-5 MPEG-2 中 的 规格 和 等 级 





表 11-6 列 出 了 主要 规格 中 的 四 个 等 级 ， 主 要 规格 有 最 大 量 的 数据 和 目标 应 用 。 例 如 ，High 级 
别 支 持 的 图 像 分 辨 率 为 1920x1152， 最 大 帧 率 为 60fps， 最 大 像素 率 为 62.7x10 每 秘 ， 编码 后 最 大 
数据 率 为 80Mbps。Low 级 别 以 源 输入 格式 (SF) 视频 为 目标 ， 因 此 ，MPEG-2 兼容 MPEG-1。 
Main 级 别 用 于 CCIR 601 视频 ， 而 High 1440 和 High 级 别 分 别 用 于 欧洲 HDTV 和 北美 洲 HDTV. 


表 11-6 MPEG-2 中 主要 规格 的 4 个 等 级 


AKER: | 最 大 编码 数据 率 (Mbps) 
60 
60 





最 大 分 辩 率 























High 1 920x1 152 62.7x10° 80 l 电影 
High 1440 1 440x1 152 47.0x10° 60 商业 高 清 数字 电视 
Main 720x576 30 10.4x10° 15 电视 工作 室 
Low 352x288 3.0x105 4 商业 影 带 





DVD 视频 规范 仅 允许 四 种 显示 分 辩 率 : 720x480、704x480、352x480 和 352x240。 因 此 DVD 
视频 标准 仅 使 用 MPEG-2 Main 规格 中 Main 级 别 和 Low 级 别 的 限制 形式 。 


11.3.1 支持 隔行 扫描 视频 


MPEG-1 仅 支 持 逐 行 扫描 视频 。 由 于 MPEG-2 被 数字 广播 电视 采用 ， 所 以 它 必须 支持 隔行 扫 
描 视 频 ， 因 为 这 是 数字 广播 电视 和 HDTV 的 一 个 特性 。 
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前 面 提 到 过 ， 在 隔行 扫描 视频 中 ， 每 帧 由 两 个 域 组 成 ， 这 两 个 域 分 别称 为 项 域 (top-field) 和 
底 域 “bottom-field)。 在 帧 图 中 ， 两 个 域 的 所 有 扫描 行 交叉 形成 一 帧 ， 然 后 被 分 成 大 小 为 16x16 
的 宏 块 ， 并 用 运动 补偿 进行 编码 。 另 一 方面 ， 如 果 将 每 个 域 看 作 是 一 个 独立 的 图 片 ， 则 称 为 域 图 
(field-picture)。 如 图 11-6a) 所 示 ， 每 个 帧 图 可 分 为 两 个 场 图 。 左 侧 帧 图 的 16 条 扫描 行 被 分 为 右 
侧 的 两 个 域 图 ， 每 个 域 图 各 8 条 扫描 线 。 























1 或 P B 一 


区 域 图 的 域 预测 了 
图 11-6 域 图 和 MPEG-2 中 域 图 的 场 预 测 


我 们 可 以 看 到 ， 在 显示 器 /TV 的 显示 区 ， 域 图 中 每 个 16 列 x16 行 的 宏 块 都 对 应 于 帧 图 中 一 个 
16x32 的 块 区 域 , 而 帧 图 中 每 个 16x16 的 宏 块 都 对 应 于 域 图 中 一 个 16x8 的 块 区 。 下 面 的 结论 是 为 
基于 运动 补偿 的 视频 编码 开发 不 同 预测 模式 的 重要 因素 。 

1， 五 种 预测 模式 

MPEG-2 定义 了 帧 预测 (frame prediction) 和 域 预测 (field prediction) 以 及 五 种 不 同 的 预测 
模式 ， 适 用 于 对 运动 补偿 的 精度 和 速度 有 不 同 要 求 的 许多 应 用 。 

(1) 帧 图 的 帧 预测 

这 种 预测 与 MPEG-1 中 用 于 了 帧 和 B 帧 的 基于 运动 补偿 的 预测 方法 相同 。 帧 预测 仅 适 用 于 含 
有 中 慢 速 的 物体 和 照相 动作 的 视频 。 

(2) 域 图 的 域 预测 

域 图 的 域 预测 见 图 11-6b。 这 种 模式 用 一 个 场 图 中 大 小 为 16x16 HEH. HF PAR (图 中 
最 右 侧 的 图 ) 来 说 ， 由 最 近 两 次 的 编码 域 进 行 预测 。 顶 域 图 中 的 宏 块 由 先前 的 工 帧 或 P 帧 的 顶 域 
或 者 底 域 图 进行 前 向 预测 得 到 。 底 域 图 中 的 宏 块 由 当前 帧 的 顶 域 图 或 者 先前 工 帧 或 P 帧 的 底 域 图 
进行 预测 得 到 。 

对 于 B 场 图 不论 前 向 预测 还 是 后 向 预测 ， 都 依照 之 前 和 之 后 的 I 帧 或 P 帧 的 域 图 进行 。 没 
有 规则 要 求 维护 域 的 “奇偶 ” 也 就 是 说 ， 顶 域 图 和 底 域 图 既 可 以 由 参考 图 的 顶 域 预测 也 可 以 由 
参考 图 的 底 域 预 测 。 
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C3) 帧 图 的 域 预测 

这 种 模式 将 帧 图 的 顶 域 和 底 域 分 开 处 理 。 相 应 地 ， 上 有 目标 帧 图 的 每 个 16x16 宏 块 可 拆 成 分 别 来 
自 两 个 域 的 两 个 16x8 部 分 。 为 这 两 个 部 分 进行 域 预测 的 方式 如 图 11-6b 所 示 。 除 了 抉 比 较 小 外 ， 
唯一 不 同 就 是 底 域 不 能 从 当前 帧 的 顶 域 预测 出 来 ， 因 为 我 们 现在 处 理 的 是 帧 图 。 

例如 ， 对 于 P 帧 图 ， 底 部 16x8 部 分 将 改 为 依照 预测 的 工 帧 或 P 帧 的 域 进 行 预测 。 对 于 了 帧 
图 的 每 个 16x16 宏 块 将 产生 两 个 运动 向 量 。 同 理 ， 对 于 B 帧 图 的 每 个 宏 块 将 产生 四 个 运动 向 量 。 

(4) 域 图 的 16x8 运动 补偿 

目标 域 图 的 每 个 16x16 宏 块 分 为 顶部 和 底部 两 个 16x8 的 部 分 ， 也 就 是 前 八 行为 一 部 分 ， 后 
八 行为 一 部 分 。 对 于 每 个 部 分 分 别 进 行 场 预测 。 这 样 ， 对 于 了 场 图 中 的 每 个 16x16 宏 块 将 产生 两 
个 运动 向 量 ，B 场 图 中 的 每 个 宏 块 将 产生 四 个 运动 向 量 。 这 种 模式 对 于 速度 快 且 无 规律 的 运动 可 
以 进行 很 好 的 运动 补偿 。 

(5) P 图 的 对 偶 素 

这 是 唯一 一 种 既 可 以 用 于 帧 图 又 可 以 用 于 域 图 的 模式 。 首 先 ， 对 具有 相同 奇偶 性 〈 顶 或 底 》 
的 每 一 个 之 前 的 域 进行 场 预测 。 然 后 ， 考 虑 到 时 间 的 伸缩 以 及 顶 场 与 底 场 行 间 的 垂直 移动 ， 每 一 
个 运动 向 量 MV 用 来 得 到 一 个 与 之 有 相反 奇偶 性 场 的 计算 出 的 运动 向 量 。 这 样 ， 这 个 MV 与 CV 
对 为 每 个 宏 块 产生 两 个 初始 预测 。 将 它们 的 预测 误差 取 平 均 作 为 最 终 的 预测 误差 。 这 个 模式 的 目 
的 在 于 利用 不 使 用 后 向 预测 的 P 图 来 模仿 B 图 预测 (因此 减少 了 编码 时 延 )。 

2. 交替 扫描 和 域 离散 余弦 交换 ( Field-DCT ) 

交替 扫描 和 域 离散 余弦 变换 (Field-DCT) 技术 的 目的 是 提高 DCT 在 预测 误差 上 的 有 效 性 。 
这 种 技术 只 应 用 在 隔行 视频 的 帧 图 上 。 

在 帧 图 中 进行 帧 预测 后 ,预测 误差 将 发 送 到 每 个 块 大 小 都 是 8x8 的 DCT。 由 于 隔行 视频 的 特 
性 ， 这 些 块 中 连续 的 行 都 来 自 不 同 的 场 ， 因 此 它们 之 间 的 相关 性 比 起 隔行 之 间 的 相关 性 要 小 。 这 
也 就 使 低 垂直 空间 频率 的 DCT 系数 的 量 级 小 于 逐 行 视频 的 DCT 系数 。 

基于 之 前 的 分 析 ， 引 入 交替 扫描 。 它 可 以 应 用 于 遵循 MPEG-2 的 每 张 图 ， 而且 是 MPEG-2 中 
Z 字 扫 描 的 一 个 替代 项 。 如 图 11-7a 所 示 ， 假 设 对 一 个 逐 行 视频 做 乙 字 扫描 ， 块 的 左上 和 角 的 DCT 
系数 往往 会 有 较 大 的 量 级 。 交 替 扫 描 〈 如 图 11-7b 所 示 ) 在 隔行 视频 中 ， 垂 直 较 高 空间 频率 分 量 
会 有 较 大 的 重 级 并 可 以 在 序列 中 先 对 它们 进行 扫描 。 实 验 表明 [7]， 交 替 扫 描 可 以 使 峰值 信 噪 比 
(PSNR) 比 Z 字 扫描 改善 近 0.3d4B， 而 且 对 于 有 快速 运动 的 视频 尤为 有 效 。 
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图 11-7 MPEG-2 中 视频 的 DCT RMN ZB CRT) FMA CTD BR 


在 MPEG-2 中 ， 域 DCT 用 于 解决 相同 的 问题 。 在 应 用 DCT 之 前 ， 帧 图 宏 块 中 的 行 被 记录 下 
来 ， 这 样 前 八 行 来 自 顶 域 ， 后 八 行 来 自 底 域 。 这 就 重复 存储 了 连续 行 之 间 的 较 高 空间 的 元 余 A 


322 





323 


224 PERA ERREEN 


相关 性 )。 这 个 记录 在 IDCT 后 还 将 被 继续 保留 。 域 DCT 不 适用 于 每 个 宏 块 仅 有 8x8 像素 的 色 度 
图 像 。 


11.3.2 MPEG-2 的 可 伸缩 性 

和 JPEG2000 一 样 ， 可 伸缩 性 (Scalability〉 对 于 MPEG-2 来 说 也 是 一 个 很 关键 的 问题 。 因 为 
MPEG-2 适合 多 种 应 用 ， 包 括 数字 电视 和 HDTV， 视 频 往 往 以 不 同 的 形式 在 网 络 上 传输 。 因 此 ， 
实现 可 变 码 率 的 单一 编码 位 流 是 很 有 必要 的 。 

MPEG-2 的 可 伸缩 编码 (scalable coding) 也 称 为 层次 〈layered) 编码 ， 其 中 定义 了 一 个 基层 和 
一 个 或 多 个 增强 层 。 基 层 可 通过 独立 编码 、 传 输 和 解码 来 获得 基本 的 传输 质量 。 增 强 层 的 编码 和 解 
码 依赖 于 基层 以 及 之 前 的 增强 层 的 。 一 般 来 说 ,只 使 用 一 个 增强 层 , 这 种 情况 称 为 两 层 可 伸缩 编码 。 

可 伸缩 编码 适合 具有 以 下 特征 的 MPEG-2 视频 在 网 络 上 的 传输 。 

。 不 同 的 码 率 ” 如 果 连 接 速 度 较 慢 〈 如 使 用 56kbps 的 调制 解 调 器 拨号 上 网 )， 那 么 只 发 送 基 

层 的 位 流 ， 否 则 要 发 送 一 个 或 多 个 增强 层 的 位 流 来 提高 视频 质量 。 
。 可 变 码 率 〈VBR) 信道 ” 当 信道 的 码 率 下 降 时 ， 将 会 少 传 〈 或 不 传 ) 增强 层 的 位 流 ， 反 之 
亦 然 。 

。 低 质量 的 连接 ”基层 可 以 被 很 好 的 保护 或 者 通过 一 条 质量 较 好 的 信道 传送 。 

而 且 ， 可 伸缩 编码 也 非常 适用 于 逐 行 传输 。 首 先 发 送 基层 的 位 流 ， 给 用 户 一 个 快速 而 基本 的 
视频 视图 ， 接 着 逐步 增加 数据 ， 改 进 质 量 。 这 种 方法 很 适合 传输 兼容 的 数字 电视 和 HDTV. 

MPEG-2 支持 如 下 的 可 伸缩 性 ; 

。 SNR 可 伸缩 性 ”增强 层 提 供 较 高 的 SNR. 

。 空 间 可 伸缩 性 ”增强 层 提供 较 高 的 空间 分 辩 率 。 

。 时 间 可 伸缩 性 增强 层 有 利于 提供 较 高 的 帧 率 。 

。 混合 可 伸缩 性 以 上 三 种 可 伸缩 性 任意 两 种 的 组 合 。 

。 数 据 划 分 “ 拆 分 量化 DCT 系数 。 

1. SNR 可 伸缩 性 

图 11-8 描述 了 在 MPEG-2 编码 器 和 解码 器 中 SNR 可 伸缩 性 的 工作 原理 。 

MPEG-2 SNR 可 伸缩 编码 器 在 两 个 层 上 产生 输出 位 流 Bits_base 和 Bits_enhance。 在 基 
EX DCT 系数 进行 较 粗 略 的 量化 ， 这 样 就 产生 较 少 的 比特 和 质量 较 低 的 视频 。 经 过 变 长 编码 后 
的 位 流 称 为 Bits_base。 

接 下 来 ， 对 经 过 粗略 量化 的 DCT 系数 进行 道 量化 〈@C- ) 并 反馈 给 增强 层 ， 与 原来 的 DCT 
系数 比较 。 对 它们 之 间 的 差 进行 量化 产生 .DCT 系数 修订 ， 并 对 其 进行 变 长 编码 ， 产 生 的 位 流 称 
为 Bits_enhance。 将 粗略 的 逆 量 化 和 精 化 后 的 DCT 系数 相 加 ， 经 过 逆 DCT (IDCT)， 用 来 对 
下 一 帧 进行 运动 补偿 预测 。 可 见 ， 对 基层 进行 增强 / 精 化 可 以 改进 信 品 比 ， 这 种 类 型 的 可 伸缩 性 称 
为 SNR 可 伸缩 性 (SNR scalability). 

如 果 由 于 某 些 原因 《〈 如 网 络 通道 故障 )， 不 能 获取 增强 层 的 Bits_enhance, PA LAA 
缩 性 方案 仍然 适用 。 在 这 种 情况 下 ， 增 强 层 的 逆 量 化 器 07) 的 输入 为 零 。 

解码 器 (参见 图 11-8b ) 的 操作 正好 与 编码 器 的 顺序 相反 。 在 将 Bits_base 与 Bits_enhance 
相 加 恢复 为 DCT 系数 之 前 ， 先 对 它们 进行 变 长 解码 (VLD) 和 逆 量 化 〈@- )。 接 下 来 的 步骤 与 
基于 运动 补偿 的 视频 解码 器 的 处 理 步 又 相同 。 如 果 两 个 位 流 (Bits_base 和 Bits_enhance) 
都 被 使 用 ， 那 么 视频 输出 Output_hign) 将 有 很 高 的 质量 。 如 果 仅 仅 用 到 了 Bits_base， 那 
么 输出 视频 (Output_base) 仅 具 有 基本 的 质量 。 
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11-8 MPEG-2 SNR 可 伸缩 性 


2， 空 间 可 伸缩 性 

MPEG-2 空间 可 伸缩 性 的 基层 和 增强 层 不 像 在 SNR 可 伸缩 性 中 联系 得 那么 紧密 ， 因 此 ， 这 种 
可 伸缩 性 比较 简单 。 我 们 不 会 像 上 面 那样 对 编码 器 和 解码 器 进行 详细 介绍 , 我 们 利用 高 层次 图 表 ， 
仅 对 编码 过 程 进行 解释 。 | 

基层 用 来 为 低 分 辨 率 的 图 像 产 生 位 流 。 将 它 与 增强 层 结合 将 产生 初始 分 辩 率 的 图 像 。 如 
图 11-9a 所 示 ， 原 始 视频 数据 在 空间 上 删 减 二 分 之 一 并 发 送 到 基层 编码 器 。 在 通常 的 运动 补偿 编 
码 、 对 预测 误差 进行 DCT、 量 化 以 及 炳 编码 之 后 ， 输 出 位 流 为 Bits_base。 

如 图 11-9b 所 示 ， 由 基层 产生 的 预测 宏 块 经 过 空间 插值 得 到 16x16 的 分 辩 率 ， 接 着 将 它 与 标 
准 的 、 从 增强 层 自身 的 时 间 预 测 宏 块 相 结合 ， 形 成 预测 宏 块 ， 作 为 该 层 编码 中 的 运动 补偿 。 这 里 
的 空间 插值 采用 前 面 讨论 过 的 双 线 性 插值 技术 。 

利用 一 个 简单 的 权 值 表 来 进行 宏 块 之 间 的 结合 ， 其 中 权 值 w 的 范围 限制 在 0~1.0 之 间 。 如 果 
w=-0， 表 明 对 于 从 基层 得 来 的 预测 宏 块 不 加 考虑 。 如 果 w=1， 则 表明 预测 全 部 由 基层 得 来 的 。 通 
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常情 况 下 , 两 个 预测 宏 块 分 别 利用 加 权 w 和 1 一 w 进行 线性 的 结合 ,为 了 使 预测 误差 最 小 , MPEG-2 
的 编码 器 内 有 一 个 从 宏 块 权 值 表 中 选择 不 同 w 值 的 分 析 器 。 


空间 增强 层 编码 器 







Bits_enhance 











Bits_base 





0 
b)》 时 间 预 测 与 空间 预测 相 结 合 的 增强 层 编码 
图 11-9 MPEG-2 空间 可 伸缩 性 编码 器 


3. 时 间 可 伸缩 性 
减 小 帧 率 时 时 间 可 伸缩 编码 既 有 基层 视频 又 有 增强 层 视 频 。 每 层 的 减 小 帧 率 通常 是 相同 的 ， 
但 也 可 以 不 同 。 基 层 和 增强 层 的 图 片 与 输入 的 视频 有 相同 的 空间 分 辩 率 。 当 整合 到 一 起 时 ， 将 视 
频 重 新 恢复 为 初始 的 帧 率 。 
图 11-10 描述 了 时 间 可 伸缩 性 MPEG-2 的 实现 。 输 入 视频 在 时 间 上 分 成 两 部 分 ， 每 部 分 的 帧 
率 是 原来 的 一 半 。 像 之 前 描述 的 那样 ， 基 层 编 码 器 对 输入 它 的 视频 执行 普通 的 单 层 编码 过 程 ， 并 
产生 输出 位 流 Bits_base。 
对 于 增强 层 匹 配 宏 块 的 预测 可 以 采用 下 列 两 种 方式 [7]: 隔 层 运动 补偿 预测 或 者 运动 补偿 预测 
与 隔 层 运动 补偿 预测 相 结合 。 
。 隔 层 运动 补偿 预测 11-10b 解释 了 隔 层 运动 补偿 预测 的 原理 。 增 强 层 运动 补偿 B 帧 的 宏 
块 由 之 前 或 者 之 后 基层 的 帧 预测 得 来 (可 以 是 I、P 或 是 B)， 这 样 可 以 在 运动 补偿 中 开发 
可 能 的 层 间 宛 余 。 
。 运动 补偿 预测 与 陋 层 运动 补偿 预测 相 结合 ”图 11-10c 解释 了 这 种 方式 。 这 种 方式 将 常见 的 
前 向 预测 与 上 述 的 隔 层 预测 的 优点 进一步 结合 。 增强 层 B 帧 的 宏 块 是 由 其 本 层 的 前 向 帧 经 
前 向 预测 以 及 基层 的 前 向 (或 后 向 ) 帧 经 后 向 预测 得 来 的 。 对 于 第 一 帧 ， 增 强 层 的 P 帧 仅 
由 基层 的 工 帧 经 前 向 预测 得 到 。 
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4. 混合 可 伸缩 性 

上 面 三 种 可 伸缩 性 的 任意 两 种 组 合 即 为 混合 可 伸缩 性 。 组 合 有 以 下 几 种 : 

。 空 间 时 间 混 合 可 伸缩 性 

。SNR 空间 混合 可 伸缩 性 

。SNR 时 间 混 合 可 伸缩 性 

一 般 采 用 一 个 三 层 混合 编码 器 ， 由 基层 、 增 强 层 1 和 增强 层 2 组 成 。 

以 空间 时 间 混 合 可 伸缩 性 为 例 ， 基 层 和 增强 层 1 提供 空间 可 伸缩 性 ， 而 增强 层 1 和 增强 层 2 
提供 时 间 可 伸缩 性 ， 在 这 里 增强 层 1 可 作为 基层 。 

对 于 编码 器 ， 输 入 的 视频 数据 首先 在 时 间 上 分 为 两 路 数据 流 ， 一 路 进入 增强 层 2， 另 一 路 进 
入 增强 层 1 和 基层 〈 在 对 基层 进行 进一步 空间 抽取 后 )。 

编码 器 产生 三 路 输出 位 流 ， 从 基层 来 的 Bits_base， 从 增强 层 1 来 的 在 空间 上 增强 的 
Bits_enhance1l， 以 及 从 增强 层 2 来 的 在 空间 时 间 上 增强 的 Bits_enhance2。 

其 他 两 种 混合 可 伸缩 性 的 实现 与 此 类 似 ， 留 做 课 后 练习 。 

5、 数 据 划 分 

压缩 的 视频 流 被 划分 为 两 个 区 ， 基 础 区 包含 低频 DCT 系数 ， 增 强 区 包含 高 频 DCT 系数 。 虽 
然 有 时 区 也 称 作 层 〈 基 层 和 增强 层 )， 但 严格 来 说 ， 数 据 划分 并 不 产生 相同 类 型 的 层次 编码 ， 
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为 一 个 视频 数据 流 只 是 被 划分 ， 在 产生 增强 区 的 时 候 并 不 依赖 于 基础 区 。 不 过 ， 数 据 划 分 对 于 在 
嘲 杂 的 信道 上 传输 以 及 渐进 传输 是 很 有 用 的 。 


11.3.3 5 MPEG-1 的 其 他 主要 区 别 


。 更 好 地 从 位 错误 中 恢复 ”由 于 MPEG-2 视频 常常 在 不 同 的 网 络 上 进行 传输 ， 有 些 网 络 噪 声 
很 大 而 且 不 可 靠 ， 因 此 出 现 位 错误 是 不 可 避免 的 。 为 了 解决 此 问题 ，MPEG-2 系统 有 两 种 
类 型 的 流 : 程序 流 和 传送 流 。 程 序 流 与 MPEG-1 中 的 系统 流 类 似 ， 因 此 ， 它 可 以 很 容易 地 
兼容 MPEG-1。 
传送 流 目的 是 进行 差错 恢复 以 及 将 具有 不 同 扫描 基线 的 多 个 程序 合成 一 个 单一 的 流 来 进行 
异步 多 路 技术 和 网 络 传输 。 与 MPEG-1 所 用 的 较 长 的 变 长 包 不 同 ，MPEG-2 的 程序 流 用 的 是 定 长 
包 (188B)。 而 且 有 一 个 新 的 头 语法 ， 可 以 更 好 地 进行 差错 检测 和 修复 。 
。 支持 4:2:2 和 4:4:4 的 色 度 二 次 采样 ”除了 像 H.261 和 MPEG-1 那样 支持 4:2:0 的 色 度 二 次 
采样 ，MPEG-2 还 支持 4:2:2 和 4:4:4 的 色 度 二 次 采样 ， 以 提高 色彩 质量 。 像 第 5 章 所 讨论 
的 那样 ， 每 个 4:2:2 的 色 度 图 片 在 水 平方 向 除 2 进行 二 次 采样 ，4:4:4 是 个 特例 ， 即 没有 
进行 色 度 二 次 采样 。 
。 非 线性 量化 ”MPEG-2 中 的 量化 与 MPEG-1 中 的 量化 相似 。 它 的 step_size AEH Ofi, j] 
与 scale 的 乘积 决定 的 ， 其 中 O 是 帧 内 或 帧 间 编 码 默认 的 量化 表 之 一 。 允 许 的 尺度 类 型 有 
两 种 。 一 种 是 与 MPEG-1 相同 的 尺度 ， 即 [1,31] 范 围 内 的 一 个 整数 且 scale; =i 。 另 一 种 类 
型 中 存在 一 个 非 线性 关系 ， 即 scale; i。 第 i 个 尺度 值 可 以 在 表 11-7 中 查 到 。 


3211-7 MPEG-2 中 可 能 的 非 线 性 尺度 
2 3 5 7 8 10 11 12 13 14 15 
Pe BEEBE pale aya pas 
i 7 18 19 21 22 23 24 25 26 27 28 29 30 31 
BERRA 
。 更 严格 的 宏 块 片 结构 ”MPEG-1 允许 宏 块 片 跨 越 宏 块 行 边界 。 这 样 ， 一 幅 图 片 可 以 只 是 一 
个 宏 块 片 。 而 MPEG-2 的 宏 块 片 必 须 开 始 结束 于 相同 的 宏 块 行 。 换 名 话说， 一 幅 图 片 的 左 
边界 总 是 开始 一 个 新 的 宏 块 片 ，MPEG-2 中 最 长 的 宏 块 片 只 能 包含 一 个 宏 块 行 。 
。 更 灵活 的 视频 格式 ”依据 标准 ，MPEG-2 图 片 的 大 小 可 以 为 16Kx16K 像素 。 在 现实 中 ， 
MPEG-2 主要 用 来 支持 DVD. ATV 以 及 HDTV 定义 的 不 同 的 图 片 分 辩 率 。 
与 H.261、H.263 和 MPEG-1 类 似 ，MPEG-2 仅 指 定 了 位 流 语法 和 解码 器 。 这 为 将 来 的 改进 提 


供 了 很 大 空间 ， 特 别 是 编码 器 端的 改进 。MPEG-2 视频 流 语法 比 MPEG-1 复杂 得 多 ， 具 体 信息 可 
以 参考 文献 [8，7]。 


11.4 ”进一步 探索 


Mitchell et al.[6]# Haskell et al.[7] 的 书籍 对 MPEG-1 和 MPEG-2 进行 了 详细 介绍 .Haskell et al. 
的 文章 [9] 概 述 了 数字 视频 编码 标准 。 

本 书 网 站 上 本 章 的 Further Exploration 部 分 给 出 了 各 类 资源 的 URL, 包括 MPEG 的 主页 .FAQ 
页 、MPEG-1 和 MPEG-2 标准 的 综述 以 及 工作 文档 。 
11.5 练习 


1. SAARI, MPEG 视频 压缩 利用 了 工 帧 、P 帧 和 B 帧 。 然 而 ， 早 期 的 H.261 标准 并 没有 用 到 B 
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帧 ,描述 一 种 由 于 没有 使 用 B 帧 而 使 视频 压缩 性 能 欠 佳 的 情况 。( 答 案 不 得 与 图 11-1 中 的 情况 
相 同 o ) 


. 默认 的 帧 间 量化 表 9; 都 是 常数 ， 而 帧 内 量化 表 QI 则 不 是 常数 ， 解 释 原因 。 
. 与 MPEG-1 相 比 ，MPEG-2 有 哪些 增强 ? 为 什么 MPEG-2 标准 没有 替代 MPEG-1 标准 ? 


4. B 帧 给 编码 带 来 了 很 大 的 好 处 ， 如 在 低 码 率 的 情况 下 增加 了 SNR 而 且 节省 带宽 ， 那 么 B 帧 有 


哪些 缺点 ? 


. MPEG-1 标准 引入 了 B 帧 ， 使 运动 向 量 搜索 范围 也 相应 地 由 H.261 中 的 [15,15] 增 加 到 [512,， 


511.5]。 为 什么 这 是 必然 的 ? 计算 连续 了 帧 间 的 B 帧 个 数 可 以 证 明 搜索 范围 的 增长 。 


6. 重新 绘制 图 11-8 中 MPEG-2 两 层 SNR 可 伸缩 性 编码 器 和 解码 器 ， 使 之 包含 第 二 个 增强 层 。 
7. 绘制 下 列 可 伸缩 性 的 MPEG-2 编码 器 和 解码 器 的 块 图 : Ca) SNR 空间 混合 可 伸缩 性 ，(b) SNR 


时 间 泥 合 可 伸缩 性 。 

8. 为 什么 B 帧 不 能 在 运动 补偿 中 作为 参考 帧 ? 假设 任何 类 型 的 帧 都 可 作为 参考 帧 。 讨 论 在 视频 
序列 中 用 参考 B 帧 代替 了 帧 的 利弊 〈 即 完全 消除 P 帧 )。 

9. 设计 一 种 在 一 个 SNR 可 伸缩 性 MPEG-2 位 流 的 增强 层 使 用 运动 补偿 的 方法 。 为 什么 在 MPEG-2 
的 标准 中 没有 这 样 建议 ? 

10. 写 一 段 可 以 在 MPEG-2 中 实现 SNR 可 伸缩 性 的 程序 。 该 程序 应 能 运行 在 任何 宏 块 上 、 使 用 任 
意 量 化 步 长 step_sizes， 并 应 能 输出 Bits_base 和 Bits_enhance 位 流 。 不 要 忽略 可 变 长 编 
码 这 个 步骤 。 
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第 12 章 ，MPEG 视频 编码 1: MPEG-4、MPEG-7 及 更 高 版 本 


12.1 MPEG-4 概述 


MPEG-1 和 MPEG-2 使 用 了 基于 帧 的 编码 技术 ， 其 中 每 个 矩形 视频 帧 作为 一 个 压缩 单元 ， 这 
种 压缩 技术 主要 关注 高 压缩 率 和 令 人 满意 的 图 像 质量 。MPEG-4 是 一 个 更 新 的 标准 [1]， 除 了 压缩 
外 ， 该 标准 还 关注 用 户 交 互 ， 这 就 使 大 量 的 用 户 能 够 通过 新 的 基础 设施 〈 如 因特网 、WWW 以 及 
移动 /无 线 网 络 ) 创建 和 交流 他 们 的 多 媒体 演示 和 应 用 。MPEG-4 与 之 前 版 本 的 不 同 之 处 在 于 它 采 
用 了 一 种 新 的 基于 对 象 编码 Cobject-based coding) 的 方式 ， 此 时 媒体 对 象 成 为 MPEG-4 的 编码 实 
体 。 媒 体 对 象 ( 也 称 为 音频 和 视频 对 象 ) 可 以 是 自然 的 ， 也 可 以 是 合成 的 ， 也 就 是 说 ， 它 们 可 以 
是 由 摄像 机 采集 的 ， 也 可 以 是 由 计算 机 程序 生成 的 。 

基于 对 象 编码 不 仅 可 以 提供 更 高 的 压缩 率 ， 而 且 利于 进行 数字 视频 合成 、 处 理 、 索 引 和 检索 。 
图 12-1 说 明 如 何 通 过 对 可 视 对 象 进行 插入 /删除 、 平 移 /旋转 、 缩 放 等 简单 操作 ， 对 MPEG-4 视频 
进行 合成 和 处 理 。 











图 12-1 MPEG-4 视频 的 合成 和 处 理 (VOP = Video Object Plane， 即 视频 对 象 平 面 ) 


MPEG-4( 版 本 1) 完 成 于 1998 年 10 月 ,并 于 1999 年 初 成 为 国际 标准 , 称 为 ISO/IEC 14496[2]; 
改进 版 本 (版 本 2) 完成 于 1999 年 12 A, FFF 2000 年 成 为 国际 标准 。 与 前 一 个 MPEG 标准 相 
似 ， 它 的 前 5 个 部 分 是 系统 、 视 频 、 音 频 、 一 致 性 和 软件 。 它 的 第 6 个 部 分 ， 即 多 媒体 传送 整体 
框架 (Delivery Multimedia Integration Framework, DMIF) 是 新 的 ， 我 们 将 在 第 16 章 对 其 进行 深入 
讨论 ， 在 该 章 中 我 们 将 讨论 多 媒体 网 络 通信 和 应 用 。 

MPEG-4 视频 的 最 初 适用 于 低 码 率 的 通信 (对 移动 通信 和 是 4.8~64kbps， 对 其 他 应 用 最 高 到 
2Mbps )， 现 在 它 的 码 率 已 经 扩大 到 5kbps~10Mbps。 

如 图 12-2a 中 的 参考 模型 所 示 ，MPEG-1 系统 仅仅 从 它 的 存储 区 传送 音频 和 视频 数据 ， 没 有 
用 户 交 互 。MPEG-2 增加 了 交互 组 件 (在 图 12-2a 中 用 虚线 表示 )， 因 此 可 以 提供 如 网 络 视频 和 交 
互 电 视 等 有 限 的 用 户 交互 。MPEG-4( 如 图 12-2b 所 示 ) 是 一 个 全 新 的 标准 ， 可 以 合成 媒体 对 象 以 
创建 所 需 的 视听 场景 以 及 多 路 传播 和 同步 媒体 数据 项 的 位 流 ， 以 保证 它们 传输 过 程 中 的 服务 质量 
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(Quality of Service, QoS)， 并 能 在 接收 端 与 视听 场景 进行 交互 。MPEG-4 为 音频 和 视频 压缩 提供 
了 高 级 编码 模块 和 算法 工具 箱 。 
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b) MPEG-4 的 参考 模型 
图 12-2 MPEG 标准 中 的 交互 的 对 比 


MPEG-4 定义 了 场景 的 二 进 制 格式 (Binary Format for Scenes, BIFS) [3]， 以 便于 将 媒体 对 象 
合成 到 场景 中 。BIFS 通常 用 一 个 场景 图 表 表 示 ， 其 中 节点 描述 了 视听 对 象 及 其 属性 ， 而 图 结构 可 
以 给 出 场景 中 各 对 和 象 空间 和 时 间 关 系 的 描述 。BIFS 是 对 虚拟 现实 建 模 语言 (VRML) 的 增强 。 实 
ME, 它 强 调 了 对 象 的 时 序 和 同步 , 这 是 最 初 的 VRML 设计 所 缺乏 的 。 除了 BIFS 之 外 ,MPEG-4 
(版 本 2) 还 提供 了 一 个 编程 环境 MPEG-J[4], 其 中 Java 应 用 程序 ( 称 为 MPEGlets) 可 以 访问 Java 
包 和 API 以 增强 终端 用 户 的 交互 。 

MPEG-4 的 视觉 位 流 的 层次 结构 与 MPEG-1 和 MPEG-2 的 层次 结构 有 很 大 的 不 同 ， 它 是 面向 
视频 对 象 的。 图 12-3 给 出 了 MPEG-4 视觉 位 流 中 一 个 场景 的 层次 结构 描述 中 的 5 个 层次 。 通 常 ， 
每 一 个 视频 对 象 序列 (Video-object Sequence, VS ) 都 拥有 一 个 或 多 个 视频 对 象 (Video Object, VO), 
每 一 个 VO 都 拥有 一 个 或 多 个 视频 对 象 层 (Video Object Layer, VOL)。 按 照 语法 ，5 个 层次 在 位 
流 中 都 有 唯一 的 开始 码 ， 以 便 能 够 随机 访问 。 

1. 视频 对 象 序列 

VS 传送 完整 的 MPEG-4 视觉 场景 ， 可 以 包含 2D 或 3D 的 自然 对 象 或 合成 对 象 。 

2， 视 频 对 象 

VO 是 场景 中 的 一 个 特殊 对 象 ， 它 可 以 拥有 任意 的 〈 非 矩形 的 ) 形状 ， 与 场景 中 的 一 个 对 象 
或 背景 相对 应 。 
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3， 视 频 对 象 层 

VOL 提供 了 一 种 便捷 的 方式 支持 (多 层 的 ) 可 扩展 的 编码 。 一 个 VO 在 可 扩展 编码 下 可 以 拥 
有 多 重 VOL, 在 非 扩 展 编码 下 拥有 一 个 VOL。 作 为 一 个 特例 ，MPEG-4 也 支持 一 种 特殊 的 VOL, 
它 的 头 部 较 短 ， 这 能 使 位 流 与 H.263[5] 基 本 系统 兼容 。 

4， 视 频 对 象 平面 组 

GOV 将 视频 对 象 平面 分 组 ， 是 一 个 可 选 的 层 。 

5， 视 频 对 象 平面 

一 个 VOP 是 一 个 VO 在 特定 时 刻 的 快照 ， 反 映 了 该 时 刻 VO 的 形状 、 纹 理 和 运动 参数 。 一 般 
来 说 , 一 个 VOP 是 一 个 任意 形状 的 图 像 。 当 把 整个 矩形 的 视频 帧 当 作 一 个 VOP 的 时 候 , MPEG-4 
视频 编码 中 会 出 现 一 种 退化 的 情形 。 在 这 种 情况 下 ， 它 等 同 于 MPEG-1 和 MPEG-2。MPEG-4 ft 
许 重 登 的 VOP， 也 就 是 说 ， 在 一 个 场景 中 一 个 VOP 可 以 部 分 覆盖 另 一 个 VOP。 


视频 对 象 序列 (VS) 
视频 对 象 CVO) 
MARE (VOL) 
视频 对 象 平面 组 (GOV) 
视频 对 象 平面 (VOP) 

















12-3 MPEG-4 可 视 位 流 中 场景 的 面向 视频 对 象 的 分 层 描述 


12.2 MPEG-4 的 基于 对 象 的 视觉 编码 


MPEG-4 分 别 编码 /解码 每 个 VOP〔 而 不 是 考虑 整个 帧 )。 因 此 ， 它 的 基于 对 和 象 的 视觉 编码 也 
称 为 基于 VOP 的 编码 。 我 们 的 讨论 从 自然 对 象 〈 可 以 在 [6][7] 中 查找 到 更 多 细节 ) 的 编码 开始 ， 
12.3 节 将 介绍 合成 对 象 编码 。 


12.2.1 基于 VOP 的 编码 与 基于 帧 的 编码 


MPEG-1 和 MPEG-2 不 支持 VOP 的 概念 ， 因 此 它们 的 编码 方式 称 为 基于 帧 的 。 因 为 每 一 
帧 都 被 分 为 许多 宏 块 ， 利 用 这 些 宏 块 进行 基于 运动 补偿 的 编码 ， 所 以 这 种 方法 也 称 为 基于 块 
的 编码 Cblock-based coding)。 图 12-4a 显示 了 一 段 视频 序列 中 的 3 个 帧 ， 其 中 一 辆 汽车 向 左 运 
动 ， 而 一 个 步行 者 朝 反 方向 走 。 图 12-4b 显示 了 典型 的 基于 块 的 编码 ， 其 中 运动 向 量 (MV) 由 
其 中 一 个 宏 块 获得 。 ' 

MPEG-1 和 MPEG-2 视觉 编码 只 关心 压缩 率 ， 并 不 考虑 视觉 对 象 的 存在 。 因 此 ， 生 成 的 运动 
向 量 可 能 与 对 象 的 运动 不 一 致 ， 所 以 不 利于 基于 对 象 的 视频 分 析 和 索引 。 

图 12-4c 说 明了 一 个 可 能 的 例子 ， 其 中 两 个 可 能 的 匹配 都 生成 小 的 预测 误差 。 如 果 可 能 匹配 
2 生成 的 预测 误差 比 可 能 匹配 1 生成 的 预测 误差 小 , 那么 在 基于 块 的 编码 方式 中 MV2 将 被 选 为 宏 
块 的 运动 向 量 ， 虽 然 只 有 MVI 与 汽车 的 运动 方向 一 致 。 

MPEG-4 中 基于 对 象 的 编码 方式 除了 改进 压缩 之 外 ， 还 可 以 解决 上 述 问题 。 图 12-4d 显示 
了 每 个 VOP 可 以 拥有 任意 的 形状 ， 并 且 在 理想 情况 可 以 获取 一 个 唯一 的 与 对 象 运动 一 致 的 运 
动向 量 。 
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前 一 帧 


EE 


a) 视频 序列 


cad nee [基于 块 的 编码 | — | 块 运动 估计 | 
(MPEG-land?) > MV 


b) 基于 块 编码 的 MPEG-1 和 MPEG-2 



































c) MPEG-1 和 MPEG-2 中 两 个 可 能 的 匹配 
VOPI1 VOP2 VOPI 


基于 对 象 SEE 
二 MRE op, 
q 


d) MPEG-4 中 基于 对 象 的 编码 
图 12-4 ”基于 块 的 编码 方式 和 基于 对 象 的 编码 方式 的 对 比 


MPEG-4 基于 VOP 的 编码 方式 也 使 用 运动 补偿 技术 。 一 个 帧 内 编码 的 VOP 又 称 为 一 个 
LVOP， 只 使 用 前 向 预测 的 帧 间 编 码 的 VOP 被 称 为 P-VOP， 而 使 用 双向 预测 的 帧 间 编 码 VOP 则 
被 称 为 B-VOP。 此 时 ， 新 的 难点 在 于 VOP 可 能 拥有 任意 的 形状 。 因 此 ， 除 了 它们 的 纹理 ， 它 们 
的 形状 信息 也 必须 进行 编码 。 

注意 ， 这 里 的 纹理 实际 上 指 视觉 内 容 ， 也 就 是 VO 中 各 像素 的 灰 度 和 色 度 值 。MPEG-1 和 
MPEG-2 不 会 对 形状 信息 编码 ， 因 为 所 有 的 帧 都 是 和 矩形， 但 会 对 帧 中 的 像素 值 编码 。 在 MPEG-1 
和 MPEG-2 中 ， 这 种 编码 并 没有 被 称 为 纹理 编码 。“ 纹 理 ” 这 个 术语 来 自 计 算 机 图 形 学 ， 它 表明 
这 门 学 科 与 MPEG-4 一 道 进入 了 视频 编码 的 领域 。 

下 面 我 们 从 讨论 VOP 的 基于 运动 补偿 的 编码 开始 ， 接 着 介绍 纹理 编码 、 形 状 编码 、 静 态 纹 
理 编码 ， 子 图 像 (Sprite) 编码 以 及 全 局 运动 补偿 。 


12.2.2 ”运动 补偿 

本 节 将 阐述 MPEG-4 中 基于 VOP 的 运动 补偿 的 问题 。 因 为 -VOP 编码 相对 简单 ， 所 以 除非 
明确 提 到 I-VOP， 否 则 我 们 讨论 的 都 是 P-VOP 和 B-VOP 的 编码 。 

与 以 前 一 样 ，MPEG-4 中 的 基于 运动 补偿 的 VOP 编码 涉及 三 个 步骤 : 运动 估计 、 基 于 运动 补 
偿 的 预测 和 预测 误差 的 编码 。 为 便于 运动 补偿 ， 每 一 个 VOP 都 被 分 为 许多 宏 块 ， 这 和 前 面 介绍 
的 基于 帧 的 编码 方式 一 样 。 宏 块 默认 的 是 16x16 的 亮度 图 和 8x8 的 色 度 图 ， 当 它们 跨越 一 个 不 规 
则 形状 的 VOP 的 边界 时 会 有 特别 处 理 。 
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MPEG-4 为 每 一 个 VOP 定义 了 一 个 矩形 的 边界 框 ， 其 左边 界 和 上 边界 是 VOP 的 左边 界 和 上 
边界 ， 确 定 了 VOP 从 用 于 视频 帧 的 绝对 坐标 系统 下 原点 (0,0〉 处 平移 后 的 原点 位 置 〈 如 图 12-5 
所 示 )。 亮 度 图 中 边界 框 在 水 平和 垂直 方向 上 都 必须 是 16 的 倍数 ， 因 此 ， 此 框 通常 比 常规 的 边界 
框 要 大 一 些 。 

完全 处 于 VOP 内 部 的 宏 块 称 为 内 部 宏 块 (interior PAW 
macroblock)。 从 图 12-5 中 可 以 明显 地 看 出 ， 许 多 宏 (0,0) ga Beni 
块 跨越 了 VOP 的 边界 ， 这 些 宏 块 称 为 边界 宏 块 Gelai 
(boundary macroblock). 

内 部 宏 块 的 运动 补偿 方式 与 MPEG-1 和 MPEG-2 
的 运动 补偿 方式 相同 。 但 是 边界 宏 块 在 运动 估计 中 将 
很 难 匹 配 ， 因 为 VOP 通常 形状 不 规则 ， 而 且 它们 的 
形状 在 视频 中 的 不 同时 刻 可 能 会 发 生变 化 ,为 便于 匹 
配 目标 VO 的 每 个 像素 并 且 满 足 变 换 编码 (例如 
DCT) 中 对 矩形 块 的 强制 要 求 ， 在 运动 估计 前 ， 将 对 12-5 VOP 的 边界 框 和 边界 宏 块 
参考 VOP 应 用 称 为 填充 (padding) 的 预 处 理 步骤 。 

只 有 当前 (目标 〉VOP 内 部 的 像素 才 需 要 进行 运动 补偿 的 匹配 ， 而 填充 仅仅 针对 参考 VOP. 

为 得 到 更 好 的 质量 ， 当 然 还 可 以 开发 一 些 比 填充 更 好 的 扩展 方法 ， 在 MPEG-4 中 采用 填充 方 
法 ， 很 大 程度 上 是 因为 该 方法 简单 、 高 速 。 

运动 补偿 的 前 两 个 步骤 是 填充 和 运动 向 量 编码 。 

1. 填充 

对 于 参考 VOP 中 所 有 的 边界 宏 块 ， 首 先进 行 水 平 重 复 填充 Chorizontal repetitive padding), 
接着 进行 垂直 重复 填充 〈vertical repetitive padding) (如 图 12-6 所 示 )。 在 此 之 后 ， 对 所 有 VOP 之 
外 、 但 与 一 个 或 多 个 边界 宏 块 相 邻 的 外 部 宏 块 (exterior macroblock) 进行 扩展 填充 (extended 


padding). 
水 平 重复 填充 = 垂直 重复 填充 ~ rans | 


图 12-6 MPEG-4 中 参考 VOP 的 填充 顺序 


水 平 重复 填充 算法 扫描 参考 VOP 中 边界 宏 块 的 每 一 行 ， 每 一 个 边界 像素 将 被 向 左 或 向 右 复 
制 以 填充 宏 块 中 VOP 之 外 的 中 间 像 素 值 。 如 果 这 一 段 像素 在 两 个 边界 像素 之 间 ， 则 采用 这 两 个 
边界 像素 的 平均 值 。 








VOP 
































算法 12-1 ”水平 重复 填充 
begin 
for all rows in Boundary macroblocks in the Reference VOP 
if 3 (boundary pixel) in the row 
for all interval outside of VOP 
if interval is bounded by only one boundary pixel b 
assign the value of b to all pixels in interval 
else // interval is bounded by two boundary pixels bl and b2 
assign the value of (b; + b2)/2 to all pixels in interval 
end 


接 下 来 的 垂直 重复 填充 算法 与 水 平 重 复 填 充 算法 相似 。 它 扫描 每 一 列 ， 在 水 平 填充 过 程 中 新 
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填充 的 像素 被 当 作 VOP 内 部 的 像素 进行 垂直 填充 。 


例 12-1 

12-7 解释 了 一 个 参考 VOP 的 边界 宏 块 中 的 重复 填充 的 例子 。 图 12-7a 显示 的 是 VOP PKR 
素 的 亮度 值 〈 或 色 度 值 )，VOP 的 边界 用 加 黑 的 线 显 示 。 为 简单 起 见 ， 此 例 中 宏 块 的 分 辩 率 减 至 
6x6， 尽 管 其 实际 的 宏 块 大 小 是 16x16 (亮度 图 ) 和 8x8( 色 度 图 )。 


45152155160 60 ' 60 
tag! 
1 
I 1 1 


51 154 1 55 1 55 1 60 60 


51! 54155155! 60! 60 





a) VOP 内 的 原始 像素 b)》 水 平 重复 填充 之 后 。“c) 牌 直 重复 填充 之 后 
图 12-7 一 个 参考 VOP 边界 宏 块 重复 填充 的 例子 
(1) 水 平 重复 填充 (参见 图 12-7b ) 
。 第 0 行 VOP 的 最 右边 的 像素 就 是 边界 像素 , 其 亮度 值 是 60, 重复 用 作 VOP 外 的 像素 值 。 
。 第 1 行 同样 ，VOP 的 最 右边 的 像素 也 是 边界 像素 ， 其 亮度 值 是 50， 重 复 用 作 VOP 外 的 
像素 值 。 
。 第 2 行 和 第 3 行 无 水 平 填充 ， 因 为 没有 边界 像素 。 
。 第 4 行 VOP 外 有 两 个 间隔， 每 个 间隔 都 是 由 一 个 边界 像素 界定 的 ， 它 们 的 亮度 值 是 60 
和 和 70， 分 别 重复 用 作 两 个 间隔 的 像素 值 。 
© 第 5 行 ”VOP 外 的 一 个 间隔 由 VOP 的 一 对 边界 像素 界定 。 其 平均 亮度 值 是 (50+80)/2=65， 
因此 将 65 重复 用 作 两 者 之 间 像 素 的 值 。 
(2) 垂直 重复 填充 ( 参见 图 12-7c ) 
第 0 列 由 VOP 的 一 对 边界 像素 界定 的 一 个 间隔 。 这 两 个 边界 像素 分 别 是 42 和 60 (是 由 水 
平 填充 产 生 的 )， 它 们 的 平均 亮度 是 (42+60) /2=51， 将 51 重复 用 作 两 者 之 间 的 像素 的 值 。 
第 1~5 列 的 填充 过 程 和 第 0 列 类 似 。 


2， 扩 展 填 充 

全 部 位 于 VOP 之 外 的 宏 块 是 外 部 宏 块 。 紧 邻 边 界 宏 块 的 外 部 宏 块 用 边界 宏 块 的 边界 像素 值 
填充 。 我 们 知道 ,边界 宏 块 现在 已 经 完全 被 填充 了 ， 因 此 它们 的 水 平和 垂直 边界 像素 都 已 经 赋值 。 
如 果 一 个 外 部 宏 块 拥有 多 个 紧邻 的 边界 宏 块 ， 那 么 按照 左 、 上 、 右 、 下 的 顺序 为 其 选择 边界 宏 块 
进行 扩展 填充 。 

MPEG-4 的 较 新 的 版 本 允许 利用 这 些 边界 宏 块 的 平均 值 。 扩 展 填充 的 过 程 可 以 重复 应 用 到 该 
VOP 矩形 边界 框 的 所 有 外 部 宏 块 上 。 

3， 运 动向 量 编码 

目标 VOP 上 的 每 一 个 宏 块 将 通过 如 下 的 运动 估计 过 程 找到 参考 VOP 的 一 个 最 佳 匹配 宏 块 。 

设 C(x+k,y+ 站 为 目标 VOP 宏 块 中 的 像素 ,而 R(x+i+k,y+ j+) 为 参考 VOP 宏 块 中 的 像素 。 
与 式 10.1 中 的 MAD 相似 ， 为 测量 两 个 宏 块 的 不 同 ， 定 义 如 下 所 示 的 SAD: 


N-1N~1 i 
SADG,j)= X, SCG+tk y+D) -Rtitk, y+ j+)] + Map(x+k, y+) 


k=0 1=0 
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其 中 ，N 表示 宏 块 的 大 小 、 当 C(p,g) 是 目标 VOP 中 的 一 个 像素 时 ， Map(p,g)=1, BW 
Map(p,9) =0。 产 生 最 小 SAD 值 的 向 量 (i, j) 作为 运动 向 量 MV(u,v): 


(u,v) ={(i, j)|SADG, j) is minimum, iE€E[-p,p], j €l~p, pl} (12.1) 


HH pfu. v 可 以 取 的 最 大 值 。 
对 于 运动 补偿 ， 要 给 运动 向 量 MV 编码 。 如 HH.263《〈 参 见 图 10-11〉 所 述 ， 并 不 是 简单 的 取 目 
标 宏 块 的 运动 向 量 为 MV。MYV 是 通过 3 个 相 邻 的 宏 块 预测 得 到 的 。 然 后 对 预测 误差 进行 可 变 长 
编码 。 
以 下 是 一 些 高 级 的 运动 补偿 技术 ， 它 们 与 H.263 中 采用 的 技术 相似 “参见 10.5 节 )。 
。 可 以 为 VO 的 亮度 分 量 中 的 每 一 个 宏 块 生成 4 个 运动 向 量 〈 每 一 个 向 量 来 自 一 个 8x8 的 
块 )。 
。 运 动向 量 可 以 进行 比 像素 级 更 精确 的 预测 。 在 半 像 素 预 测 中 ， 运 动向 量 的 范围 是 
[-2048,2047]. MPEG-4 还 允许 在 VOP 亮度 分 量 上 进行 1/4 像素 预测 。 
。 可 以 使 用 不 受 限制 的 运动 向 量 : MV 可 以 指向 参考 VOP 边界 外 。 当 参考 VOP 之 外 的 像素 
时 ， 它 的 值 仍 是 根据 填充 进行 定义 的 。 
12.2.3 ”纹理 编码 
纹理 指 VOP 中 的 灰 度 级 (或 色 度 〉 的 变化 及 样式 。MPEG-4 中 的 纹理 编码 可 以 基于 DCT 或 
是 形状 自 适 应 DCT (shape Adaptive-DCT, SA-DCT). 
1. 基于 DCT 的 纹理 编码 
在 LVOP F, VOP 的 各 宏 块 像素 的 灰 度 (或 色 度 ) 值 先 使 用 VLC 接着 使 用 DCT 直接 进行 编 
码 ， 这 与 JPEG 对 静态 图 片 的 编码 很 相似 。P-VOP 和 B-VOP 使 用 基于 运动 补偿 的 编码 ， 因 此 预测 
误差 将 传送 DCT 和 VLC. 下 面 的 讨论 重点 关注 对 P-VOP 和 B-VOP 的 基于 运动 补偿 的 纹理 编码 。 
对 内 部 宏 块 的 编码 与 H.261、H.263 及 MPEG-1 和 MPEG-2 中 传统 的 基于 运动 补偿 的 编码 相似 
(其 中 亮度 VOP 为 16x16 的 块 ， 而 色 度 VOP 为 8xg 的 块 )。 在 进行 常规 的 运动 估计 后 ， 可 获取 每 个 
宏 块 中 6 个 8x8 的 块 的 预测 误差 。 这 些 误差 将 传送 到 DCT 程序 以 获取 6 个 8x8 的 块 的 DCT 系数 。 
对 边界 宏 块 来 说 ， 参 考 VOP 之 外 的 区 域 通过 重复 填充 过 程 进行 填充 ， 这 个 过 程 前 面 已 经 介 
绍 过 。 在 运动 补偿 后 ， 获 取 目 标 VOP 内 的 纹理 预测 误差 。 对 于 目标 VOP 边界 宏 块 中 VOP 外 的 
部 分 用 0 填充 ， 然 后 传 给 DCT， 因 为 在 理想 情况 下 ，VOP 内 部 的 预测 误差 是 接近 0 的 。 重 复 填 
充 和 扩展 填充 都 是 为 了 在 运动 补偿 中 有 更 好 的 匹配 ， 填 充 0 则 是 为 了 在 纹理 编码 中 得 到 更 好 的 
DCT 结果 。 
DC 分 量 的 量化 步 长 step_size 为 8。 对 于 AC 系数 ， 可 以 使 用 如 下 两 种 方法 中 的 一 种 ， 
。 H263 方法 ， 其 中 所 有 的 系数 获得 由 一 个 参数 控制 的 量化 器 ， 不 同 的 宏 块 拥有 不 同 的 量化 
器 。 . 
。MPEG-2 方法 ， 其 中 同一 个 宏 块 中 的 DCT 系数 可 以 有 不 同 的 量化 器 ， 由 step_size 参数 进 
一 步 控制 。 
2， 边 界 宏 块 的 SA-DCT 编码 
SA-DCT[8] 是 另 一 种 对 边界 宏 块 进行 纹理 编码 的 方法 。 由 于 该 方法 效率 较 高 , 因此 在 MPEG-4 
版 本 2 中 已 经 采用 SA-DCT 进行 边界 宏 块 的 编码 。 
1D DCT-N 是 前 述 的 1D DCT 〈 见 式 〈8.19) AR (8.20)) 的 变 体 ， 其 中 变换 使 用 可 变量 N 
代替 固定 的 N=8。( 为 简单 起 见 ， 本 节 中 用 DCT-N 表示 1D PCT-N。) 
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式 12.2 和 12.3 描述 了 DCT-N BHR HWM IDCT-N。 
一 维 离散 余弦 变换 -N (DCT-N) 


E + a 


F(u) = ows cos-————f (i) (12.2) 
一 维 逆 离 散 余弦 变换 -N (IDCT-N) 

F@= 5 Z equ oos i+ DUR Fy) (12.3) 

2N 

其 中 ji=01…,N-1;， xz=01…,N-1， 并 且 
i 
Cu)=) 2° " 
1 ， 其 他 





SA-DCT 是 一 个 2D DCT， 并 作为 可 分 的 2D 变换 通过 两 次 DCT-N 迭代 进行 计算 。 图 12-8 说 
明了 使 用 SA-DCT 对 边界 宏 块 进行 纹理 编码 的 过 程 。 变 换 应 用 于 边界 宏 块 的 每 个 8x8 的 块 。 

图 12-8a 显示 了 边界 宏 块 中 的 一 个 8x8 块 , 其 中 宏 块 中 的 像素 用 f(x, y) 表示 , 且 显 示 为 灰色 。 
灰色 像素 首先 被 向 上 平移 得 到 f(x, y) , 如 图 12-8b AAR. 在 第 一 次 迭代 中 , DCT-N 应 用 到 f(x,y) 
的 第 一 列 , 其 中 每 一 列 中 灰色 像素 数 决定 了 N 的 大 小 。 因 此 , 我 们 分 别 使 用 DCT-2、DCT-3、DCT-5 
等 。 计 算出 的 DCT-N 系数 由 F(x, v) 表示 ， 如 图 12-8c 所 示 ， 其 中 黑色 的 点 表示 DCT-N 的 DC 系 
e F(x, v) 接着 向 左 平移 ， 得 到 图 12-8d 中 的 F’(x,v). 

在 第 二 次 迭代 中 ，DCT-N 应 用 于 F“(x,v) 每 一 行 ， 得 到 G(u,v) (如 图 12-8e 所 示 )， 图 中 黑色 
的 点 表示 2D SA-DCT 的 DC 系数 G(0,0) 。 


+T 





d) F”(x,v) e) G(u,v) 
图 12-8 ”使 用 SA-DCT 对 边界 宏 块 进行 纹理 编码 


以 下 是 一 些 编码 时 需要 考虑 的 问题 : 
。G (uy) P DCT 系数 的 总 数 等 于 边界 宏 块 的 8x8 块 中 的 灰色 像素 数 ， 少 于 8x8. Aut, % 
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方法 是 形状 自 适应 的 ， 并 且 计 算 效率 更 高 。 
。 在 解码 时 ， 因 为 在 每 次 IDCT-N 迭代 后 数组 元 素 都 需要 适当 地 移动 回来 ， 要 求 使 用 初始 形 
状 的 二 元 掩 码 对 用 SA-DCT 进行 纹理 编码 的 信息 解码 。 二 元 掩 码 与 下 面 将 介绍 的 二 元 o 图 
相同 。 
12.2.4 ”形状 编码 


与 MPEG-1 和 MPEG-2 不 一 样 ，MPEG-4 必须 对 VOP 的 形状 进行 编码 ， 因 为 形状 是 视觉 对 
象 一 个 固有 的 特性 。 

MPEG-4 支持 两 种 形状 信息 : 二 值 和 灰 度 。 二 值 形状 信息 可 以 用 二 值 图 的 形式 〈 也 被 称 为 二 
元 a 图 ) 表示 ， 这 种 图 与 VOP 的 矩形 边界 框 大 小 相同 。 位 图 信息 中 值 1〈 不 透明 ) 和 值 0 (透明 》 
分 别 表示 像素 是 否 在 VOP 内 。 灰 度 形状 信息 事实 上 是 指 形状 的 透明 度 ， 灰 度 值 范围 为 0~255。 

1. 二 元 形状 编码 

为 了 更 高 效 地 对 二 元 a 图 编码 ， 将 图 分 为 16x16 大 小 的 块 ， 这 种 块 也 称 为 二 元 Qa 块 〈Binary 
Alpha Block, BAB )。 如 果 一 个 BAB 完全 透明 或 不 透明 的 ， 那 么 很 容易 编码 ， 不 需要 特别 的 形状 
编码 技术 。 问 题 在 于 那些 包含 轮 廊 即 VOP 形状 信息 的 边界 BAB。 它 们 是 二 元 形状 编码 的 目标 。 

为 对 边界 BAB 进行 编码 [9]， 研 究 人 员 研 究 和 比较 了 各 种 基于 轮廓 和 基于 位 图 (或 者 基于 区 
域 ) 的 算法 ， 最 后 选 出 的 两 种 算法 都 是 基于 位 图 的 。 一 种 是 MMR (Modified Modified READ， 修 
订 修 改 读 ) 算法 ， 它 是 传真 G3 标准 [10] 中 可 选 的 增强 项 及 G4 标准 [11] 中 强制 要 求 的 压缩 方式 。 
另 一 种 是 基于 上 下 文 的 算术 编码 (Context-based Arithmetic Encoding, CAE), 它 最 初 是 为 JBIG[12] 
开发 的 ， 由 于 其 简单 且 压 缩 率 高 ，CAE 最 终 被 选 为 MPEG-4 的 二 元 形状 编码 方案 。 

MMR 基本 上 是 READ (Relative Element Address Designate) 算法 的 一 系列 简化 。READ 算法 
的 基本 思想 是 根据 前 一 个 已 编码 行 的 像素 位 置 对 当前 行进 行 编码 。 该 算法 先 确定 上 一 行 和 当前 行 
中 的 5 个 像素 点 的 位 置 : 

© do: 编码 器 和 解码 器 所 知 的 最 后 一 个 像素 值 。 

ea: qo 右边 的 过 渡 像 素 。 

ea: ao 右 边 的 第 二 个 过 渡 像 素 。 

eb: 上 一 个 己 编 码 行 中 第 一 个 与 ao 颜 色相 反 的 过 渡 像 素 。 

eb: 上 一 个 已 编码 行 中 bi 右 边 的 第 一 个 过 渡 像素 。 

READ 算法 通过 扫描 这 些 像 素 的 相对 位 置 进行 工作 。 在 任 一 时 刻 , 编码 器 和 解码 器 都 知道 co， 
bi 和 bs 的 位 置 ， 而 a 和 az 的 位 置 只 有 编码 器 知道 。 

该 算法 使 用 了 三 种 编码 模式 : 

。 如果 前 一 行 和 当前 行 的 游 长 相似 ， 那 么 a 和 bi 之 间 的 距离 应 该 远 远 小 于 ao 和 a 之 间 的 距 

B. AE, ARA (vertical mode) 将 当前 的 游 长 编码 为 a1-bi。 

。 如果 前 一 行 和 当前 行 的 游 长 不 相似 ， 当 前 行 的 游 长 使 用 一 维 游 长 编码 。 这 种 模式 称 为 水 平 

模式 Chorizontal mode). 

。 如果 aogb1<b2<al， 我 们 可 以 只 传送 一 个 码 字 ， 表 示 采 用 通道 模式 (pass mode), # ao 提 

前 到 b> 下 面 的 位 置 继 续 并 进行 编码 过 程 。 

对 READ 算法 的 实际 实现 可 以 进行 一 些 简 化 。 例 如 ， 如 果 lia1-bi<3， 说 明 我 们 应 该 使 用 垂 
直 模 式 。 同 时 ， 为 避免 误差 传播 ， 定 义 一 个 下 因子 ， 这 样 每 上 行 中 必须 至 少 有 一 行使 用 传统 的 游 
长 编码 。 这 些 修改 构成 了 G3 标准 中 的 修订 READ 算法 。 MMR 算法 只 是 去 掉 了 大 因子 强加 的 限制 。 

对 基于 上 下 文 的 算术 编码 ， 图 12-9 说 明了 边界 BAB 中 一 个 像素 的 “上 下 文 ” 在 CAE A 
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式 下 ， 当 仅 涉 及 目标 ac 图 〈 图 12-9a)) 时 ， 相 同 a 图 下 的 10 个 邻近 像素 〈 编 号 0-9) 就 形成 了 上 
下 文 。 与 这 些 像素 相关 的 10 个 二 进 制 数 可 以 提供 至 多 210=1024 种 可 能 的 上 下 文 。 


当前 由 参考 由 当前 由 
37 


| [9] 
[6] 514} 3]2 | 
[1] 010} 





a) CAE 内 b) CAE 间 


图 12-9 MPEG-4 中 进行 二 元 形状 编码 的 CAE 中 的 上 
下 文 。 〇 表示 当前 的 像素 ， 数 字 表 示 相 邻 的 其 他 像素 


很 显然 ， 某 些 上 下 文 《比如 全 为 1 或 0) 出 现 的 频率 大 于 其 他 上 下 文 。 利 用 一 些 预 先 的 统计 ， 
可 以 建立 一 个 概率 表 表 示 这 1024 种 上 下 文 的 出 现 频 度 。 

回忆 一 下 ， 算 术 编 码 ( 第 7 章 中 介绍 的 ) 可 以 用 一 个 数字 编码 概率 符号 的 顺序 。 现 在 ， 每 个 
像素 可 以 查找 这 个 表 以 获取 其 上 下 文 的 概率 值 。CAE 仅仅 在 BAB 中 顺序 地 扫描 每 个 16x16 像素 
并 应 用 算术 编码 为 该 BAB 计算 出 一 个 浮 点 数 。 

CAE 间 模 式 是 CAE 内 模式 的 自然 扩展 ， 它 涉及 目标 图 和 参考 w 图 。 对 目标 帧 中 的 每 一 个 边 
FER, 首先 调用 运动 估计 (整数 估计 ) 和 压缩 过 程 找到 参考 帧 中 的 匹配 宏 块 。 这 确立 了 边界 BAB 
中 每 个 像素 相应 的 位 置 。 

12-9b 显示 每 个 像素 的 上 下 文 包括 目标 a 图 中 4 个 相 邻 像素 及 参考 a 图 中 的 5 个 像素 。 根 据 
其 上 下 文 ， 边 界 BAB 中 的 每 个 像素 赋予 2=512 种 可 能 性 的 一 个 。 然 后 应 用 CAR 算法 。 

16x16 二 值 图 最 初 包含 256 位 信息 ， 把 它 压缩 成 一 个 浮 点 数 是 非常 节省 的 。 

以 上 的 CAE 方式 是 无 损 的 ! MPEG-4 组 织 也 考察 了 以 上 形状 编码 的 一 些 简单 的 有 损 版 本 ， 
如 在 算术 编码 前 ， 二 元 g 图 可 以 简单 地 使 用 因子 2 或 4 进行 二 次 采样 。 其 代价 当然 是 形状 的 质量 
下 降 。 

2.， 友 度 形状 编码 

MPEG-4 中 的 术语 “ 灰 度 形状 骗 码 ” 可 能 会 让 人 误解 ， 因 为 真正 的 形状 信息 编码 在 二 元 a 图 
中 。 这 里 的 灰 度 用 来 描述 形状 的 透明 度 而 不 是 纹理 ! 

除了 RGB 帧 缓冲 区 的 位 平面 外 ， 光 概 图 形 学 为 cx 图 使 用 特别 的 位 平面 ， 它 用 于 描述 图 形 对 象 
的 透明 度 。 当 a 图 拥有 多 个 位 平面 时 ， 即 可 引入 多 级 透明 度 ， 例 如 0 表示 透明 ，255 表示 不 透明 ， 
0~255 间 的 任意 数字 表示 其 间 的 透明 度 。 在 MPEG-4 中 ， 对 透明 度 编码 使 用 灰 度 这 个 术语 仅仅 是 
因为 表示 透明 度 的 数字 介 于 0~255 间 ， 这 与 传统 的 8 位 灰 度 级 相同 。 

MPEG-4 中 的 灰 度 形状 编码 使 用 与 前 述 的 纹理 编码 相同 的 技术 。 它 使 用 0 图 和 基于 块 的 运动 
补偿 ， 并 通过 DCT 对 预测 误差 进行 编码 。 前 面 描述 过 ， 边 界 宏 块 需要 进行 填充 ， 因 为 并 非 所 有 
的 像素 都 在 VOP 中 。 

透明 度 信息 编码 〔 灰 度 形状 编码 ) 是 有 损 的 ， 这 与 二 元 形状 信息 编码 不 同 ， 它 在 默认 情况 下 
是 无 损 的 。 


12.2.5 ”静态 纹理 编码 


MPEG-4 对 静态 对 象 的 纹理 使 用 小 波 编码 ， 这 非常 适合 将 纹理 映射 到 3D 表面 的 情况 。 

第 8 章 中 介绍 过 ， 小 波 编码 可 以 将 一 幅 图 递归 地 分 解 为 多 重 频率 的 子 带 。 嵌 入 式 零 树 小 波 
(EZW) 算法 [13] 通 过 削 去 子 带 中 大 量 不 重要 的 系数 来 提供 更 为 紧凑 的 表示 。 

MPEG-4 静态 纹理 编码 中 的 子 带 编 码 的 操作 过 程 如 下 所 示 ; 

。 使 用 DPCM 对 最 低频 率 的 子 带 进行 编码 。 每 个 系数 的 预测 基于 其 三 个 邻居 。 
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。 其 余子 带 的 编码 基于 多 级 零 树 小 波 编码 方式 。 
多 级 零 树 对 最 低频 率 子 带 的 每 一 个 系数 拥有 一 个 父子 关系 (parent-child relation, PCR) 树 ， 
这 样 可 以 更 好 地 查询 所 有 系数 的 位 置信 息 。 
除了 初始 的 系数 幅度 ， 量 化 的 程度 也 对 数据 率 有 所 影响 。 如 果 在 量化 后 系数 的 幅度 为 0， 它 
就 被 当 作 不 重要 的 系数 。 首 先 ， 使 用 一 个 大 的 量化 器 ， 只 选择 最 重要 的 系数 ， 然 后 使 用 算术 编码 
方式 进行 编码 。 量 化 后 的 系数 和 初始 的 系数 的 差 值 保存 在 保留 下 的 子 带 中 ， 它 将 在 下 一 次 使 用 小 
346) 一 点 的 量化 器 的 迭代 中 被 编码 。 这 个 过 程 可 以 不 断 重 复 ， 因 此 具有 很 大 的 可 扩展 性 。 


12.2.6 子 图 像 编码 


视频 摄影 常常 涉及 相机 运动 ， 如 镜头 旋转 、 倾 斜 、 伸 缩 等 ， 一 般 情况 下 主要 是 为 了 跟踪 和 检 
查 前 景 〈 运 动 的 ) 对 象 。 在 这 种 环境 下 ， 背 景 可 以 视 为 静止 图 像 。 这 创建 了 一 种 新 的 VO 类 型 ， 
子 图 像 一 一 一 种 可 以 在 一 幅 大 的 图 像 或 多 幅 图 像 中 自由 移动 的 图 形 图 像 。 

为 了 从 背景 中 分 离 前 景 对 象 ， 我 们 需要 介绍 子 图 像 全 景 的 概念 一 一 在 一 系列 视频 帧 中 用 一 幅 
静态 图 像 描 述 静 态 背景 ， 可 以 使 用 图 像 颖 合 和 卷 绕 技 术 [14] 获 得 。 大 的 子 图 像 全 景 图 像 可 以 在 视 
频 序列 的 开始 编码 并 且 只 送 入 解码 器 一 次 。 当 解码 器 接收 到 分 别 解码 后 的 背景 对 象 和 描述 相机 运 
动 的 参数 后 ， 能 高 效 地 重 构 场 景 。 

图 12-10a 显示 了 一 个 子 图 像 ， 它 是 由 一 系列 视频 帧 缝合 成 的 全 景 图 像 。 通 过 合并 子 图 像 背 景 
和 图 12-10b 中 的 风笛 手 ， 新 的 视频 场景 (图 12-10c) 通过 子 图 像 编 码 和 附加 的 镜头 旋转 /倾斜 和 
缩放 参数 可 以 很 容易 地 进行 解码 。 显 然 ， 前 景 对 象 可 以 来 自 初始 视频 场景 ， 也 可 以 创建 这 些 前 景 
对 象 以 实现 MPEG-4 视频 灵活 的 基于 对 象 的 合成 。 







a) 背景 的 子 图 像 全 景 图 


b) 蓝屏 图 中 的 前 景 对 象 (MBF) c) 合成 的 视频 场景 (彩色 插页 中 也 有 此 图 )。 
风笛 手 图 像 来 自 Simon Fraser University 
风笛 乐队 ， 在 此 感谢 


347 图 12-10 子 图 像 编 码 


12.2.7 ”全 局 运动 补偿 


常见 的 相机 运动 (如 镜头 旋转 、 倾 斜 、 伸 缩 (因为 它们 应 用 于 各 个 块 ， 也 被 称 为 全 局 运动 )) 
常常 会 造成 连续 视频 帧 间 内 容 的 快速 变化 。 传 统 的 基于 块 的 运动 补偿 将 产生 大 量 重要 的 运动 向 
量 。 而且， 这 些 相 机 的 运动 无 法 全 部 由 传统 的 使 用 基于 块 的 运动 补偿 所 使 用 的 运动 模型 描述 。 全 
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局 运动 补偿 (Global motion compensation, GMC) 用 于 解决 这 个 问题 。GMC 有 4 个 主要 的 部 分 : 
。 全 局 运动 估计 对 于 子 图 像 全 局 运动 估计 计算 当前 图 像 的 运动 。“ 全 局 ”表示 由 于 相机 运动 
(镜头 移动 、 伸 缩 等 造成 的 总 体 变化 。 它 是 通过 最 小 化 子 图 像 S 和 全 局 补偿 图 像 1 的 平 
方差 的 和 得 到 的 。 


E=$ (S6, y) 70 yD) (12.4) 
i=l 
其 基本 思想 是 ， 如 果 背 景 〈 可 能 是 缝合 的 ) 图 像 是 子 图 像 S(x,y;)， 我 们 希望 新 的 帧 主要 由 
通过 全 局 相机 运动 修改 的 同样 的 背景 形成 。 为 进一步 限制 全 局 运动 估计 问题 ， 在 整个 图 像 上 的 运 
动 通过 如 下 定义 的 8 个 参数 的 预测 运动 模型 进行 参数 化 : 
re Ag + AX; + a2; 
ax anys tl (12.5) 
/一 a3 + 44X; +asyi 
agXi taryit+ 1 


这 构成 了 一 个 约束 最 小 化 问题 ， 可 以 通过 梯度 下 降 算 法 [15] 解 决 。 

。 卷 绕 和 混合 ”一 旦 运动 参数 计算 出 来 ， 背 景 图 像 会 与 子 图 像 缠绕 到 一 起 。 卷 绕 后 的 图 像 坐 
标 由 式 12.5 得 到 。 此 后 ， 缠 绕 的 图 像 混合 到 当前 子 图 像 ， 从 而 生成 新 的 子 图 像 。 这 可 以 使 
用 简单 的 平均 或 者 某 种 形式 的 加 权 平 均 来 完成 。 

。 运动 轨迹 编码 ”我 们 不 直接 传递 运动 参数 ， 而 只 是 对 参考 点 的 位 移 进行 编码 ， 这 被 称 为 轨 
迹 编码 [15]。VOP 边界 框 角 的 点 被 选 作 参考 点 ， 它 们 在 子 图 像 中 相应 的 点 会 计算 出 来 。 这 
两 个 实体 之 间 的 差异 作为 差分 运动 向 量 编码 并 且 传 递 。 

。 选择 局 部 运动 补偿 (LMC) 或 GMC 最后， 必须 决定 选择 GMC 还 是 LMC。 我 们 可 以 将 
GMC 应 用 于 运动 的 背景 ， 将 LMC 应 用 于 前 景 。 推 断 可 知 〈 跳 过 很 多 细节 )， 如 果 
SADawMc<SADrwc， 则 选择 GMC 生成 预测 参考 VOP。 否 则 像 以 前 一 样 使 用 LMC. 


12.3 MPEG-4 的 合成 对 象 编码 


计算 机 图 形 学 和 动画 软件 中 所 创建 的 视频 对 象 不 断 增多 ， 这 些 对 象 称 为 合成 对 象 ， 通 常 和 游 
戏 、 电 视 广 告 、 电 视 节 目 、 动 画 和 故事 片 中 的 自然 对 和 象 和 场景 一 起 展示 。 

在 这 一 节 中 ， 我 们 主要 讨论 合成 对 象 的 二 维基 于 网 格 的 编码 和 三 维基 于 模型 的 编码 以 及 动画 
方法 。Beek、Petajan 和 Ostermann[16] 对 这 个 主题 进行 了 更 详细 的 论述 。 


12.3.1 2D 网 格 对 象 编码 


2D 网 格 〈2D mesh) 是 由 多 边 形 组 成 的 二 维 平面 区 域 的 一 小 部 分 。 这 些 多 边 形 的 顶点 称 为 网 
格 的 节点 。 大 多 数 常 用 的 网 格 都 是 三 角形 的 网 格 ， 其 中 所 有 的 多 边 形 都 是 三 角形 。MPEG-4 标准 
使 用 两 种 类 型 的 2D 网 格 : 均匀 网 格 和 Delaunay 网 格 [17]。 这 两 种 网 格 都 是 三 角形 的 网 格 ， 可 以 
用 于 为 自然 视频 对 象 建 模 ， 也 能 用 于 为 合成 动画 对 象 建 模 。 

由 于 三 角形 结构 〈 节 点 之 间 的 边 ) 比较 简单 ， 可 以 很 容易 地 被 解码 器 重建 ， 所 以 在 位 流 中 不 
需要 进行 明确 的 编码 。 因 此 ，2D 网 格 的 对 象 编码 Cobject coding) 比较 简洁 。 网 格 中 所 有 坐标 值 
都 以 半 像 素 精度 进行 编码 。 

每 一 个 2D 网 格 被 看 作 一 个 网 格 对 象 平面 (MOP)。 图 12-11 阐述 了 2D MOP 的 编码 过 程 。 编 
码 可 以 分 为 几何 编码 (geometry coding) 和 运动 编码 (motion coding)。 如 图 所 示 ， 输 入 数据 是 网 
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格 中 所 有 节点 的 坐标 (x, y) 和 三 角形 (4)。 输 出 数据 是 位 移 (den dyn) 和 运动 的 预测 误差 (exn,eyn) ， 
下 面 将 分 别 介 绍 。 





Æ 12-11 2D (MOP) 的 编码 过 程 


1. 2D 网 格 几 何 编码 
MPEG-4 允许 4 种 不 同 三 角形 结构 的 均匀 网 格 。 图 12-12 是 具有 4x5 网 格 节点 的 网 格 。 每 一 
个 均匀 网 格 可 以 用 5 个 参数 确定 ， 前 两 个 参数 分 别 指定 每 一 行 和 每 一 列 的 节点 数 ， 接 下 来 的 两 个 
参数 分 别 指定 每 一 个 矩形 的 水 平和 垂直 方向 上 的 大 小 ， 最 后 一 个 参数 指定 均匀 网 格 的 类 型 。 


NNNN 人 NN 
ASSN ANAN 
SASN LNN 


a) 类 型 0 b) 类 型 1 c) 类 型 2 d) 类 型 3 
图 12-12 均匀 网 格 的 4 种 类 型 


均匀 网 格 比较 简单 ， 在 表现 2D 矩形 对 和 象 〈 如 整个 视频 帧 〉 时 效果 很 好 。 当 用 在 任意 形状 的 
对 象 上 时 ， 它 们 被 视频 对 象 平面 的 边框 所 覆盖 ， 影 响 了 效率 。 

Delaunay 网 格 是 能 够 更 好 地 表示 任意 形状 的 二 维 对 象 的 基于 对 象 的 网 格 。 

定义 1 如 果 刀 是 一 个 Delaunay 三 角 网 ,那么 它 的 任何 一 个 三 角形 =(B,P;, Pe)e DD 满足 如 
下 性 质 ， 即 的 外 接 圆 不 包括 其 内 部 其 他 任何 节点 PB。 

视频 对 和 象 的 Delaunay 网 格 可 以 通过 下 面 步骤 来 获得 : 

D 选择 网 格 的 边界 节点 。 用 多 边 形 模拟 对 象 的 边界 ， 多 边 形 的 顶点 就 是 Delaunay 网 格 的 边 
界 节 点 。 一 种 可 行 的 方法 是 选择 曲率 高 的 边界 点 作为 边界 节点 。 

2) 选择 内 部 节点 。 对 象 边 界 内 的 特征 点 ， 如 边界 点 或 者 角 点 ， 都 可 以 被 选 为 网 格 的 内 部 节点 。 

3) 完成 Delaunay 三 角 网 。 一 个 受 限 的 Delaunay 三 角 网 在 边界 和 内 部 节点 上 起 作用 ， 多 边 形 
边界 作为 限制 。 这 个 三 角 网 用 线段 将 连续 的 边界 节点 连接 起 来 作为 边 , 并 只 在 边界 内 部 形成 三 角形 。 

2， 受 限 的 Delaunay 三 角 网 

首先 添加 内 部 的 边 形成 新 的 三 角形 。 该 算法 会 检查 每 一 个 内 部 边 已 确认 它 是 否 是 本 地 的 
Delaunay. RMT =A (P, P,P) M (P,P, B) FEA ik, MOR (P,P), i) 在 外 接 圆 的 内 
MAD PRA (P, Pe P) 在 外 接 圆 的 内 部 包含 总, 那么 jk 不 是 本 地 的 Delaunay, 并 将 被 边 再 代替 。 

WR P EIH (P, Pj, Py) RANEA (AJE, PERHE (P, P P) KRAE) JERE 
作 局 部 的 Delaunay 当 且 仅 当 BB 或 者 户 在 四 个 节点 中 x 坐标 最 大 。 

图 12-13a 和 12-13b 说 明了 Delaunay 网 格 节点 的 设置 和 受 限 Delaunay 三 角形 的 结果 。 如 果 节 
点 的 总 数 是 N， 并 且 N = Ne+N (其 中 Ne AN 分别 表示 边界 点 和 内 部 节点 的 数量 )， 那 么 在 
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Delaunay 网 格 中 三 角形 的 总 数 为 Ns +2Ni -2 。 在 上 面 的 图 中 ， 总 数 为 8+2x6-2=18 。 350 





b) 通过 受 限 的 Delaunay 三 角 网 得 到 三 角形 网 格 


12-13 Delaunay 网 格 
和 均匀 网 格 不同 ，Delaunay 网 格 中 的 节点 位 置 是 不 规则 的 。 因 此 ， 它 们 必须 被 编码 。 按 照 
MPEG-4 的 规定 ， 左 上 方 的 边界 节点 ”的 位 置 (xm,yo) 必须 第 一 个 被 编码 ， 然 后 按 顺 时 针 或 者 逆 时 
tt (BL 12-13a)) 方向 为 其 他 边界 点 编码 。 内 部 节点 位 置 的 编码 可 以 以 任何 顺序 进行 编码 。 
除了 第 一 个 位 置 (xo, yo) 外 ， 接 下 来 的 所 有 坐标 都 以 差分 的 形式 进行 编码 ， 即 对 n>1， 有 
dxn = Xn T Xn-l, dy, = yn 一 yn-1 (12.6) 
之 后 ， 对 dx, Al dy, 进行 变 长 编码 。 351 
3. 2D 网 格 运动 编码 
均匀 网 格 和 Delaunay 网 格 中 的 每 个 MOP 的 运动 都 用 它 的 3 个 项 节点 的 运动 向 量 来 描述 。 一 
个 新 的 网 格 结构 只 能 够 在 帧 内 创建 ， 它 的 三 角形 拓扑 结构 在 接 下 来 的 帧 中 不 再 变化 。 这 增强 了 2D 
网 格 运动 估计 的 一 对 一 映射 。 
对 任何 一 个 MOP ZAH (P,P; RR)， 如 果 和 Pj 的 运动 向 量 为 MV 和 MV, BAH P, 的 运 
动向 量 进行 的 预测 CAA Pred) 可 四 舍 五 入 为 半 像 素 精度 : 
Pred, =0.5-(MV; +MV;) (12.7) 
ex = MV, — pred; (12.8) 
一 旦 对 第 一 个 MOP 三 角形 如 的 三 个 运动 向 量 进行 编码 , 至 少 有 一 个 邻居 MOP 与 0 共用 一 条 
边 ， 它 的 第 三 个 顶 节点 的 运动 向 量 将 被 编码 ， 以 此 类 推 。 


O ”左上 边界 节点 定义 为 有 最 小 xty 坐标 值 的 节点 。 若 有 多 于 一 个 的 边界 节点 有 相同 的 x+y， 就 选 y 值 最 小 的 节点 。 
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运动 向 量 的 估计 将 在 初始 三 角形 tb 处 开始 ， 这 个 三 角形 包含 左上 边界 节点 与 其 在 顺 时 针 方 向 
相 邻 的 边界 节点 。MOP 上 所 有 其 他 节点 的 运动 向 量 都 是 根据 式 12.8 进行 编码 的 。 为 在 2D 网 格 运 
动 编码 过 程 中 穿越 MOP 三 角形 ， 创 建 了 广度 优先 顺序 。 

图 12-14 说 明 一 个 生成 树 如 何 产生 并 获取 三 角形 的 广度 优先 顺序 。 如 图 所 示 , 初始 三 角形 有 
两 个 未 访问 的 相 邻 三 角形 4 和 ts。。 在 生成 树 中 ， 它 们 作为 0 的 子 节点 。 





图 12-14 2D 网 格 运动 编码 中 广度 优先 顺序 的 MOP 三 角形 


三 角形 和 和 妃 分 别 有 未 访问 的 相 邻 三 角形 〈 即 子 节点 ) ts、t 和 1s 、te 。 在 广度 优先 方式 下 ， 
目前 的 顺序 为 wn、n、、ts、tn、ts。 顺 着 生成 树 向 下 遍历 ，1s 只 有 一 个 子 节点 ty ， 因 为 男 外 一 个 
相 邻 三 角形 4 已 经 被 访问 过 。t4 也 只 有 一 个 子 节点 ts ， 依 此 类 推 。 

4. 2D 对 象 动画 

上 面 的 网 格 运动 编码 在 参考 MOP 和 目标 MOP 的 网 格 三 角形 之 间 创 建 了 一 对 一 的 对 应 关系 。 
它 为 2D 网 格 中 所 有 的 节点 产生 运动 向 量 。 基 于 网 格 的 纹理 映射 通过 卷 绕 参考 MOP 中 每 一 个 三 角 
形 的 纹理 到 目标 MOP 中 相应 的 三 角形 中 来 产生 新 的 变化 表面 的 纹理 。 这 有 助 于 生成 2D 合成 视频 
对 象 的 动画 。 

对 于 三 角形 网 格 ， 用 于 卷 绕 的 常用 映射 函数 是 仿 射 变换 (affine transform)， 因 为 它 将 一 条 线 
映射 到 另 一 条 线 , 并 保证 一 个 三 角形 映射 为 另 一 个 三 角形 。 下面 给 出 两 个 对 应 三 角形 的 六 个 顶点 ， 
仿 射 变换 的 参数 可 以 得 到 ， 所 以 在 纹理 映射 中 变换 可 以 应 用 于 目标 三 角形 中 的 所 有 点 。 

RA P= (x,y) 在 2D 的 平面 上 ， 指 定 一 个 线性 变换 ， 使 

[x y=[x 中 au 2 | (12.9) 
421 an 

MRT(aX + BY)=aT(X)+ PTY), Kha. PARE, 那么 变换 了 为 线性 变换 。 上 面 的 线 
性 变换 适合 于 几何 操作 ， 如 旋转 、 缩 放 ， 但 是 不 适用 于 平移 ， 因 为 不 可 能 加 上 一 个 常数 向 量 。 

定义 2 变换 4 是 仿 射 变换 。 当 且 仅 当 存 在 向 量 C 和 线性 变换 HB A(X) =T(X)+C 时 ， 
WRA (x,y) 在 图 像 中 普遍 使 用 到 的 齐 次 坐标 系统 中 表示 为 [x,y,1] [18], WAK Lr y, BRA 
[x,y 的 仿 射 变换 定义 为 : 


an an 0 
[x’ y ll=[x y H| an az 0 (12.10) 
a3; a32 1 


它 实现 了 下 面 的 映射 ; 


X =ayxtayyt+ay (12.11) 


y = a12x+a22y+ a (12.12) 
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它 最 多 有 6 个 自 由 度 ， 由 参数 Qs 21> 31> QI12 dan» Maz 来 表示 。 




















下 面 的 3x3 矩阵 是 仿 射 变 换 的 变换 矩阵 (T.,T,)， 首 时针 转动 0 ， 缩 放 倍数 分 别 为 Sa 

1 0 0 cosO sinô 0 S 0 0 

0 1 0|， -sinô cos@ QO], 0 Sy, 0 

T, T, 1 0 0 1 0 0 1 

接 下 来 的 仿 射 变换 是 分 别 沿 x 轴 和 y 轴 进 行 倾 斜 : 

1 0 0 1 H, 0 
H, 1 0|, 0 1 0 
0 01 0 0 1 











其 中 五 .和 五 ,是 常数 ， 决 定 倾斜 的 程度 。 


上 面 简单 的 仿 射 变换 可 以 合成 (通过 和 矩 陈 相 乘 产生 复合 的 仿 射 变换 。 比 如 ， 旋 转 后 进行 平 


移 ， 或 者 进行 其 他 任何 变换 后 倾斜。 


可 以 证 上 明 〈 参 见习 题 7)， 任 何 复 合 的 变换 的 产生 将 有 完全 相同 的 矩阵 形式 ， 并 且 最 多 有 6 个 


自由 度 ， 用 ai an> an an an 和 ax 来 指定 。 
如 果 目 标 MOP 的 三 角形 为 
(Po, Pi, P2) = (x0, Yo), (41, y1), (x2, y2)) 
参考 MOP 中 对 应 的 三 角形 为 
(Po, Py, P2) = ((x0, yo), (xi, y1), (x2, y2)), 
两 个 三 角形 间 的 映射 可 以 定义 为 下 式 : 























x yo 1] [x yo 1] [an an 0 
x ym ll=lm y 1| lan an 0 
x, y2 l x y 1 43, az 1 


R 12.13 包含 六 个 线性 方程 (三 个 方程 和 x 有关， 三 个 方程 和 y 有 关 )， 这 6 个 方程 用 于 求解 
未 知 的 系数 ay, ~ G21 431 ~ 42. 42 All az o 设 式 12.13 可 以 表示 为 X’= XA o 由 此 可 知 4= xXx’ ’ 


WERE X = adj(X)/det(X), HH adj(X) Æ X ARPER, det(X) 是 行列 式 。 因 此 ， 


a an 0] [x yo 1]° 
an an O}=|m y 1 


, 


x yo 1 
x yi l 











aa az 1] [x2 y2 1| |x y2 1 
1 yi — y2 y2—- Yo yo— yi Xo yo 
= 一 一 一 | v-x Xo- x 入 一 着 mu y 1 
det(X) 2 1 0 2 1 0 i zı 
XMy2— Xay X2yo—X0y2 Xoyı—-xyoj| x2 y2 1 


Hp, det(X)= xo(yi- y2)— yoa mx2)+ (Ay2 — x271) o 


因为 网 格 三 角形 中 的 三 个 顶点 都 不 共 线 ， 它 确保 处 不 是 奇异 的 ， 即 det( 和 X) 关 0 。 因 此 式 12.14 


总 是 有 唯一 解 。 


上 面 的 仿 射 变换 都 是 分 段 的 ， 即 每 一 个 三 角形 有 自己 的 仿 射 变 换 。 当 对 象 在 动画 序列 中 缓慢 
变化 时 ， 仿 射 变换 的 效果 是 非常 好 的 。 图 12-15a 显示 了 一 个 简单 的 单词 映射 到 Delaunay 网 格 上 
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s Sy: 


(12.13) 


(12.14) 
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的 情况 。 图 12-15b 说 明 在 仿 射 变 换 后 在 动画 序列 中 接 下 来 的 MOP 上 扭曲 了 的 单词 。 
MPEG MPEG 


a) b) 
12-15 2D 对 象 动画 中 基于 网 格 的 纹理 映射 


12.3.2 ”基于 模型 的 3D 编码 


由 于 人 脸 和 身体 频繁 地 出 现 于 视频 中 ，MPEG-4 为 人 脸 对 象 和 身体 对 象 定义 了 专门 的 3D 模 
型 。 使 用 这 些 新 的 视频 对 象 的 应 用 包括 远程 会 议 、 人 机 交互 、 游 戏 以 及 电子 商务 。 过 去 ，3D 动 
画 研究 3D 线 框 模型 及 其 动画 [19]，MPEG-4 比 线 框 模型 更 加 先进 ， 可 以 在 人 脸 对 象 和 身体 对 象 的 
表面 加 阴影 或 进行 纹理 映射 。 

1， 人 脸 对 象 编码 和 动画 

各 个 人 脸 的 人 脸 模型 可 以 手工 创建 , 也 可 以 通过 计算 机 视觉 或 模式 识别 技术 自动 生成 。 但 是 ， 
前 者 比较 麻烦 而 且 效 果 不 佳 ， 而 后 者 在 可 靠 性 上 还 有 所 欠缺 。 

MPEG-4 采用 由 虚拟 现实 建 模 语言 (Virtual Reality Modeling Language, VRML) 组 织 [20] 开 
发 的 通用 默认 人 脸 模 型 。 可 以 指定 脸 部 动画 参数 (Face Animation Parameter，FAP) 以 获取 所 需 
的 动画 ， 它 与 最 初 的 “中 性 ”的 人 脸 不 同 。 此 外 ， 还 可 以 指定 脸 部 定义 参数 (Face Definition 
Parameter, FDP) 以 更 好 地 描述 人 脸 。 图 12-16 显示 了 FDP 的 特征 点 。 可 以 被 动画 (FAP) 影响 
的 特征 点 用 实心 圆 点 表示 ， 不 受 动画 影响 的 由 空心 圆 点 表示 。 





12-16 ”人 脸 定义 参数 中 的 特征 点 (牙齿 和 舌头 的 特征 点 没有 标 出 ) 


VRWL 组 织 定义 了 68 种 FAP[16]，FAP1 定义 了 嘴 型 ，FAP2 定义 了 面部 表情 。 通 过 对 说 话 者 
当前 嘴 部 位 置 建 模 ， 嘴 型 FAP 可 以 高 度 真实 地 为 嘴唇 运动 编码 ， 其 他 所 有 的 FAP 都 是 为 了 反映 
k. FA E RE RI AE RFL FE, BA EAL AT, FARNIR. 

Leon, RAS PE. Bhi. HH. WE BH. KEARE. BARR 
征集 来 表示 。 以 悲伤 为 例 ， 可 以 通过 微 闭 的 眼睛 ， 松 弛 的 嘴 和 上 扬 的 眉毛 表示 。 运 动 的 FAP 包括 
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AEA (head-pitch )、 平 摆 头 (head-yaw)、 转 摇头 (head-roll)、 张口 (open-jaw)、 伸 颌 (thmst-jaw)、 
Bi 〈shift-jaw)、 伸 下 嘴唇 〈push-bottom-lip)、 伸 上 嘴唇 〈push-top-lip) 等 。 

为 进行 压缩 ，FAP 使 用 预测 编码 。 在 目标 帧 中 对 FAP 的 预测 基于 前 一 帧 中 的 FAP， 预 测 误差 
应 用 算术 编码 。 可 以 使 用 DCT 改进 压缩 率 ， 尽 管 这 样 做 会 增加 计算 代价 。FAP 也 需要 量化 ， 通 
过 使 用 不 同 的 量化 步 长 ， 以 找 出 某 些 FAP 〈 如 张口 )， 可 以 比 其 他 FAP 如 伸 上 嘴唇 要 求 更 低 
的 精度 。 

2， 身 体 对 象 编码 和 动画 

MPEG-4 版 本 2 引入 了 身体 对 象 ， 它 是 对 脸 部 对 象 的 自然 扩展 。 

与 人 类 动画 〈Humanoid Animation, H-Anim) 组 在 VRML 联盟 工作 ，MPEG KAT RU 
姿态 的 通用 虚拟 人 体 。 默 认 的 姿态 是 站 立 、 双 足 向 前 、 手 臂 在 两 边 、 手 掌 向 内 。 有 296 个 身体 动 
画 参 数 〈Body Animation Parameter，BAP)。 当 应 用 到 任何 与 MPEG-4 兼容 的 通用 身体 时 ， 它 们 
都 将 产生 相同 的 动画 。 

AEH) BAP 描述 了 身体 不 同 部 分 的 连接 角度 ， 包 括 疹 柱 、 肩 、 锁 骨 、 肘 、 手 腕 、 手 指 、 臂 、 
膝盖 、 躁 及 脚趾 。 这 为 身体 生成 了 186 个 自由 度 ， 每 只 手 有 25 个 自由 度 。 而 且 ， 一 些 身体 运动 
可 以 通过 多 种 级 别 来 确定 。 例 如 ， 根 据 动画 的 复杂 度 ， 疹 柱 有 5 个 不 同 级 别 ， 分 别 支持 9、24、 
42、60、72 个 自由 度 。 

对 特定 的 身体 ， 可 以 为 身体 维度 、 身 体 表 面 形状 及 纹理 信息 指定 身体 定义 参数 (Body 
Definition Parameter，BDP)。 身 体 表 面 形 状 使 用 一 个 3D 多 边 形 网 格 (3D poly mesh) 表现 ， 包 括 
3D 空间 中 一 个 多 边 形 平面 表面 集 [18]。 在 计算 机 图 形 学 中 使 用 3D 网 格 为 表面 建 模 是 很 流行 的 。 
与 纹理 映射 一 起 使 用 ， 它 可 以 获得 很 好 的 《成 像 逼 真 的 ) 表示 效果 。 

BAP 的 编码 与 FAP 的 编码 相似 ， 即 使 用 量化 和 预测 编码 ， 预 测 误差 通过 算术 编码 进一步 
压缩 。 


12.4 MPEG-4 对 象 类 型 、 规 格 和 等 级 


与 MPEG-2 类 似 ，MPEG-4 为 不 同 应 用 定义 了 很 多 规格 (Profile》 和 等 级 (Level). MPEG-4 
中 对 规格 和 等 级 进行 标准 化 主要 有 两 个 目的 ; 一 是 保证 实现 间 的 互 操作 性 ， 二 是 能 对 标准 进行 验 
证 测试 。MPEG-4 不 仅 定义 了 视觉 规格 〈[2] 的 第 2 部 分 ) 和 音频 规格 〈[2] 的 第 3 部 分 )， 还 定义 
了 图 形 规格 、 场 景 描述 规格 ， 而 且 在 其 系统 部 分 〈[2] 的 第 1 部 分 ) 中 的 一 个 对 象 描述 器 规格 。 本 
节 中 我 们 将 对 视觉 规格 做 简要 描述 。 

由 于 MPEG-4 场景 通常 包含 多 个 视频 对 象 ， 因 此 引入 对 象 类 型 的 概念 ， 以 定义 用 于 创建 视频 
对 象 的 工具 以 及 在 场景 中 将 它们 结合 的 方法 。 表 12-1 列 出 了 应 用 于 MPEG-4 自然 视觉 对 象 类 型 2 
的 各 种 工具 。 例 如 ,“ 核 心 ” 对 象 类 型 仅 用 到 5 个 工具 。 像 “ 灰 度 级 形状 编码 ^“ 子 图 像 、“ 隔 
行 扫描 ”等 工具 都 没有 用 到 。 

表 12-2 列 出 了 MPEG-4 中 对 象 类 型 的 视觉 规格 。 例 如 ， 主 要 规格 仅 支持 “简单 ” “核心 ”、 
“ER”, 以 及 “可 扩展 静态 纹理 ”这 几 种 对 象 类 型 。 

表 12-3 列 出 了 三 种 最 常用 的 视觉 规格 所 支持 的 等 级 简单 、 核 心 以 及 主要 。 例 如 ， 明 然 四 种 
不 同 的 等 级 简单 规格 中 的 等 级 2 和 3， 核心 规格 中 的 等 级 2， 主 要 规格 中 的 等 级 1 均 支 持 CIF 
(352x288)， 但 其 码 率 以 及 对 象 的 最 大 个 数 都 不 相同 。 因 此 ，CIF 视频 质量 会 不 同 。 


O 我们 没有 列 出 MPEG-4 合成 视觉 对 象 类 型 ， 其 中 包括 动画 2D 网 格 ， 简 单 人 脸 、 简 单身 体 等 。 
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12-1 用 于 MPEG-4 自然 视觉 对 象 类 型 的 工具 


























N-bit 简单 扩展 ”扩展 的 静态 纹理 





基于 MC 的 基本 工具 
B-VOP 

二 元 形状 编码 

灰 度 级 形状 编码 
Sprite 

mT 

时 间 可 扩展 性 CP-VOP) 

空间 和 时 间 可 扩展 性 〔 和 矩形 VOP) 
N-bit 

扩展 的 静态 纹理 

差错 修复 


简单 
核心 
主要 
简单 扩展 

N-bit 

扩展 的 静态 纹理 


表 12-3 MPEG-4 简单 、 核 心 以 及 主要 视觉 规格 中 的 等 级 


规 范 级 典型 的 图 片 尺寸 码 率 (bps) 最 大 对 象 数 
1 176x144 (QCIF) 64k 4 
简 单 2 352x288 (CIF) 128k 4 
3 352x288 (CIF) 384 k 4 
1 176x144 (QCIF) 384k 4 
ae 2 352x288 (CIF) 2M 16 
1 352x288 (CIF) 2M 16 
+ 要 2 720x576 (CCIR601 ) 15M 32 
3 1920x1080 (HDTV) 38.4M 32 


12.5 MPEG-4 Part10/H.264 


ISO/IEC MPEG 的 联合 视频 小 组 (Joint Video Team, JVT) Al ITU-T 视频 编码 专家 组 (Video 
Coding Experts Group, VCEG) 开发 了 H.264 视频 压缩 标准 ， 该 标准 在 2003 年 3 月 完成 。 其 最 初 
的 题目 是 “H.26L”。 使 用 基于 这 个 新 标准 的 软件 的 前 期 研究 表明 ，H.264 可 以 提供 比 MPEG-2 高 
50% 的 压缩 率 ， 提 供 比 H.263 十 和 ,MPEG-4 的 高 级 简单 规格 高 30% 的 压缩 率 。 

这 项 工作 的 成 果 是 产生 两 个 相同 的 标准 ;ISO MPEG-4 Part10 以 及 ITU-T H.264。H.264 EIK 
缩 性 能 上 优 于 MPEG-2 RE, 在 许多 应 用 中 成 为 传输 HDTV 视频 内 容 的 主要 候选 方案 之 一 。 下 一 
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节 将 依据 [21] 来 介绍 这 个 新 标准 。 


12.5.1 ”核心 特征 

与 之 前 ITU-T H.263 十 类 似 ，H.264 详 述 了 一 个 基于 块 的 运动 补偿 转换 混合 解码 器 ， 其 中 有 5 
NEBR: 

° WR. 

。 运动 补偿 或 帧 内 预测 。 

。 反 向 扫描 、 量 化 和 剩余 像素 的 转换 。 

。 重 构 。 

。 重 构 像 素 上 的 循环 内 去 块 效应 滤波 器 。 

每 张 图 片 可 以 再 分 为 宏 块 (16x16 的 块 )， 而 且 任 意 大 小 的 宏 块 片 可 以 聚合 成 多 个 宏 块 为 自 包 
含 的 单元 。 

1. AF VLC 6 RS 

ER KREBS PAST RPT: 统一 变 长 编码 ‘UVLC)〉 和 上 下 文 自 适 应 变 长 编码 
(CAVLC)。UVLC 使 用 简单 指数 Golomb 编码 来 对 头 部 数据 、 运 动向 量 和 其 他 非 剩 余数 据 进 行 解 
码 ， 而 对 于 剩余 系数 则 用 较 复 杂 的 CAVLC 解码 。 

在 CAVLC 中 ， 为 每 种 数据 类 型 (runs、levels 等 ) 预定 义 了 多 个 VLC 表 ， 预 定义 规则 基于 
上 下 文 (之 前 已 解码 的 符号 ) 预测 最 佳 VLC K. CAVLC 允许 对 每 种 数据 类 型 使 用 多 个 统计 模型 ， 
而 且 比 起 现 有 的 固定 VLC (如 H.263 十 )，CAVLC 改善 了 焙 编 码 的 效率 。 

2， 运 动 补 偿 (PA ) 

H.264 中 的 帧 间 运 动 补偿 与 H.263 十 类 似 ， 但 更 为 复杂 。 和 HH. 263 十 中 限制 运动 补偿 决 的 大 小 

只 能 为 16x16 RA 8x8 不 同 , H.264 使 用 一 种 树 型 结构 运动 分 割 将 块 分 割 至 4x4 大 小 ( 16x16, 16x8, 
8x16，8x8，8x4，4x8，4x4)。 这 使 运动 对 象 的 运动 补偿 更 精确 。 

而 且 ，H.264 中 的 运动 向 量 可 以 达到 采样 精度 。 一 个 6 级 接收 滤波 器 用 来 进行 半 像 素 过 滤 ， 
以 保留 高 频 。 对 1/4 像素 过 滤 取 平均 ， 不 仅 可 以 提供 比 半 像 素 更 精确 的 运动 ， 而 且 可 提供 更 低 通 
的 滤波 。 多 参考 帧 也 是 H.264 的 一 个 标准 特征 ， 所 以 在 它 的 所 有 规格 中 ， 可 为 每 个 宏 块 选择 一 个 
不 同 的 参考 帧 。 

3.， 帧 内 预测 (I 预测 ) 

比 起 之 前 的 视频 标准 (如 H.263 十 )，H.264 利用 了 更 多 的 空间 预测 。 帧 内 编码 的 宏 块 都 是 使 
用 邻近 的 重 构 像 素 (已 进 行 帧 间 和 帧 内 编码 的 重 构 像素 ) 预测 得 到 。 与 运动 补偿 类 似 ， 可 以 为 每 
个 已 进行 帧 内 编码 的 宏 块 选择 不 同 的 块 大 小 (16x16 或 4x4)。 对 于 4x4 的 块 有 九 种 预测 模式 ( 宏 
块 中 每 个 4x4 的 块 可 以 有 不 同 的 预测 模式 )，16x16 的 块 有 4 种 预测 模式 。 这 种 较 复 杂 的 帧 内 预测 
能 力 很 强 ， 它 可 以 在 时 间 预 测 失败 时 极 大 地 减少 传输 的 数据 量 。 

4， 转 换 、 扫 描 和 量化 

假设 在 H.264 中 有 功能 强大 和 精确 的 P 预测 和 I 预测 方案 ， 那 么 剩余 像素 的 空间 相关 性 将 非 
常 小 。 因此， 一 个 简单 整数 精度 4x4 DCT 可 以 有 效 地 节省 能 量 。 整 数 算 法 在 所 有 处 理 器 上 可 以 进 
行 精确 的 反 变换 ， 并 且 减 少 前 述 基 于 变换 的 编 / 解 码 中 编码 器 /解码 器 不 匹配 的 问题 。H.264 还 提供 
了 一 个 具有 非 线性 步 长 的 量化 方案 ， 可 以 在 量化 尺度 的 高 端 和 低 端 获得 精确 的 速率 控制 。 

5. 循环 内 去 块 效应 滤波 . 

-H.264 详 述 了 一 种 复杂 的 信号 自 适应 去 块 效应 滤波 器 , 其 中 一 组 滤波 器 应 用 到 4x4 块 的 边界 。 
滤波 器 长 度 、 强 度 和 类 型 (去 块 /平滑 ) 根据 宏 块 编码 参数 〈 帧 内 或 者 帧 间 编 码 、 运 动向 量 差 、 参 
SWE. RBG) 和 空间 活动 (边界 检测 ) 的 不 同 而 不 同 ， 这 就 使 方块 现象 在 不 扭曲 视觉 特征 
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的 情况 下 被 消除 了 。H.264 去 块 效应 滤波 对 于 增强 标准 的 主观 质量 很 有 效 。 


12.5.2 ”基本 规格 特征 
H.264 的 基本 规格 《Baseline profile) 主要 用 于 实时 对 话 应 用 ， 如 视频 会 议 。 它 包含 前 面 所 讨论 
的 H.264 中 所 有 的 核心 编码 工具 以 及 下 面 介绍 的 容错 工具 , 适用 于 易 出 错 的 传输 (如 IP 和 无 线 网 络 ): 
。 任 意 宏 块 片 顺 序 (Arbitrary slice order, ASO) 一 张 图 片 内 宏 块 片 的 解码 顺序 不 一 定 遵循 
单调 递增 的 顺序 。 它 可 以 对 包 交 换 网 络 中 的 无 序 包 进 行 解码 ， 这 样 可 以 减少 延迟 。 
。 灵 活 的 宏 块 顺序 (Flexible macroblock order, FMO) ” 宏 块 可 以 以 任何 顺序 进行 解码 ， 像 棋 
盘 式 的 交替 模式 而 不 是 光栅 扫描 模式 。 这 对 于 易 出 错 的 网 络 很 适用 ， 这 样 由 于 宏 块 片 的 丢 
失 所 导致 的 图 中 宏 块 的 丢失 就 比较 分 散 ， 不 容易 被 人 有 眼 察 觉 。 这 个 特征 对 于 减少 抖动 和 延 
时 很 有 效 ， 因 为 解码 器 可 以 决定 不 等 待 迟到 的 宏 块 片 ， 并 且 同 样 可 以 生成 可 接受 的 图 片 。 
。 见 余 的 宏 块 片 ” 宏 块 片 的 元 余 副 本 也 被 解码 ， 从 而 进一步 改善 容错 性 。 


12.5.3 ”主要 规格 特征 
H.264 中 定义 的 主要 规格 (Main profile) 适用 于 对 延 时 要 求 不 高 的 应 用 ， 如 广播 和 存储 媒介 。 
主要 规范 包含 基本 规格 的 所 有 特征 (ASO、FMO 及 宛 余 的 宏 块 片 ) 以 及 下 面 介绍 的 对 延 时 要 求 低 
和 复杂 度 较 高 的 特征 ， 从 而 获得 最 高 压缩 率 : 
. 日 宏 块 片 H264 中 的 双向 预测 模式 比 现 有 标准 中 的 预测 模式 要 灵活 。 经 过 双向 预测 的 图 
片 可 以 被 用 做 参考 帧 。 每 个 宏 块 的 两 个 参考 帧 可 以 是 在 任意 的 时 间 方 向 的 ， 只 要 它们 在 当 
前 的 参考 帧 缓冲 区 中 可 用 。 因 此 ， 除 了 通常 的 前 向 十 后 向 双向 预测 外 ， 还 可 以 有 后 向 十 后 
向 或 者 前 向 十 前 向 预测 。 
。 上 下 文 自 适应 二 进 制 算术 编码 〈Context Adaptive Binary Arithmetic Coding, CABAC) 这 
种 编码 模式 用 二 进 制 算术 编码 代替 了 基于 VLC 的 入 编码 ， 它 针对 不 同 的 数据 类 型 和 上 下 
文 使 用 不 同 的 自 适应 统计 模型 。 
。 WRAN ”对 于 每 个 宏 块 片 都 指定 了 用 来 修改 运动 补偿 预测 样本 的 全 局 加 权 值 〈 乘 数 和 一 
个 偏 移 )， 用 来 预测 微小 的 改变 以 及 其 他 全 局 性 的 影响 ， 如 淡 入 淡出 。 
12.5.4 ”扩展 规格 特征 
扩展 规格 (eXtended profile, RX 规范 ) 主要 用 于 新 的 视频 流 应 用 。 这 个 规范 具有 延 时 要 求 
低 的 特征 、 位 流 交 换 的 特征 ， 以 及 更 多 的 容错 工具 。 它 包含 基本 规格 所 有 特征 及 下 列 特 征 ; 
。B 宏 块 片 。 
。 加 权 预 测 。 
。 宏 块 片 数 据 分 割 ” 它 将 具有 不 同 重要 性 的 宏 块 片 数据 分 割 为 不 同 的 序列 〈 头 部 信息 、 剩 余 
信息 )， 以 便 重要 的 数据 可 以 在 更 可 靠 的 信道 上 传输 。 | 
。SP 和 SI 宏 块 片 类 型 ”这 些 宏 块 片 包含 特殊 的 时 间 预 测 模式 、 允 许 位 流 交 换 、 快 进 / 快 退 以 
及 随机 访问 。 
H.264 核心 特征 的 极 大 改进 , 以 及 新 的 编码 工具 使 它 比 现 有 的 ITU-T 和 MPEG 标准 在 压缩 率 、 
容错 和 主观 质量 上 有 很 大 的 改善 。 


12.6 MPEG-7 

随 着 越 来 越 多 的 多 媒体 内 容 成 为 众多 应 用 的 不 可 或 缺 部 分 ， 有 效 性 以 及 高 效 的 信息 检索 成 为 
首要 考虑 的 问题 .1996 年 10 A, MPEG 继 MPEG-1、2 和 4 之 后 开始 进行 另 一 个 主要 标准 MPEG-7 
的 开发 。 

MPEG-4 与 MPEG-7 的 一 个 相同 之 处 在 于 它们 都 关注 的 是 视听 对 象 。MPEG-7 的 一 个 主要 目 
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标 [22] 是 满足 像 数字 图 书馆 这 类 应 用 中 对 于 基于 视听 内 容 的 检索 〈 或 视听 对 象 检索 ) 的 需要 。 然 
而 ， 对 于 信息 检索 没有 做 限制 一 一 它 可 以 应 用 于 任何 多 媒体 应 用 ， 包 括 多 媒体 数据 的 产生 (内 容 
创建 》 和 使 用 〈 内 容 消耗 )。 

MPEG-7 在 2001 年 9 月 成 为 一 个 国际 标准 。 在 ISO/IEC 15938 文档 [23] 中 ， 它 的 正式 名 称 为 
多 媒体 内 容 描 述 接口 (Multimedia Content Description Interface )。 该 标准 由 七 部 分 组 成 ， 即 系统 、 
描述 定义 语言 、 视 频 、 音 频 、 多 媒体 描述 方案 、 参 考 软件 以 及 一 致 性 。 

MPEG-7 支持 多 种 多 媒体 应 用 。 它 的 数据 可 以 包括 静态 图 像 、 图 形 、3D 模型 、 音 频 、 语 音 、 
视频 以 及 复合 信息 〈 这 些 元 素 如 何 组 合 )。 这 些 MPEG-7 数据 元 素 可 以 用 文本 或 二 进 制 格 式 (或 
者 两 者 兼用 来 表示 )。 第 一 部 分 (系统 ) 定义 了 MPEG-7 二 进 制 格式 (BiM) 数据 的 语法 。 第 二 部 
分 〈 描 述 定义 语言 ) 描述 了 采用 XML Schema 作为 其 语言 的 文本 格式 的 语法 。 在 文本 格式 与 二 进 
制 格式 表示 之 间 定 义 了 双向 无 损 映射 。 

图 12-17 给 出 了 一 些 可 得 益 于 MPEG-7 的 应 用 。 如 图 所 示 ， 特征 可 取 自 MPEG-7 描述 。 接 着 
它们 被 MPEG-7 编码 器 编码 并 发 送 到 存储 和 传输 媒体 ,多 种 搜索 和 查询 引擎 处 理 搜 索 和 浏览 请 求 ， 
这 由 Internet 的 一 系列 拉 式 (pull) 动作 组 成 ， 同 时 ， 过 滤 代 理 (filter agent) 过滤 出 许多 材料 并 
HE (push) 到 终端 一 一 用 户 或 消费 数据 的 计算 机 系统 及 应 用 。 


MPEG-7 ana 编码 的 描述 


i 存储 和 传输 媒体 





















内 容 消费 〈 用 户 和 多 媒体 系统 与 应 用 ) 





图 12-17 使 用 MPEG-7 的 可 能 应 用 


为 了 进行 多 媒体 内 容 描 述 , MPEG-7 EFR TRT (Descriptor, D), HYR (Description 
Scheme, DS) 和 描述 定义 语言 (Description Definition Language，DDL)。 下 面 是 一 些 重要 概念 : 

。 特征 ”指数 据 的 特性 。 

。 描 述 子 D) ”特征 的 定义 (语法 和 语义 )。 

。 描述 方案 (DS) 描述 子 和 描述 模式 间 结 构 和 关系 的 规范 (参见 [24])。 

。 描 述 一 组 实例 化 的 描述 子 的 和 描述 模式 ， 描 述 了 内 容 、 存 储 以 及 内 容 使 用 等 的 结构 和 概 

念 信息 。 
。 描述 定义 语言 (DDL) ”表达 和 组 合 描 述 模 式 以 及 描述 子 的 语法 规则 (参见 [25])。 
可 见 [23]，MPEG-7 的 范畴 就 是 对 用 于 描述 的 描述 子 、 描 述 模式 和 描述 定义 语言 进行 标准 化 ， 


而 产生 和 使 用 描述 的 机 制 和 处 理 过 程 超出 了 MPEG-7 的 范畴 。 这 个 问题 还 有 待 解决 ， 它 有 利于 工 


业界 改革 创新 和 公平 竞争 ， 更 重要 的 是 可 以 推动 新 技术 的 不 断 进步 。 
与 MPEG-1 视频 中 的 仿真 模型 (SM)、MPEG-2 视频 中 的 测试 模型 (TM)， 以 及 MPEG-4 (视频 、 
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音频 、SNHC 和 系统 ) 中 的 验证 模型 (VM) 类 似 ，MPEG-7 把 它 的 工作 模型 命名 为 实验 模型 (Experim- 
entation Model, XM) 一 一 一 个 字母 顺序 双关 语 ! XM 提供 了 用 于 评价 描述 子 、 描 述 模式 和 描述 定 
义 语 言 的 多 种 工具 的 描述 ， 以 便于 进行 实验 和 验证 ， 并 可 在 全 世界 对 多 个 独立 的 部 分 进行 比较 。 
第 一 组 这 类 实验 称 作 核心 实验 (core experiments). 


12.6.1 描述 子 


MPEG-7 的 描述 子 用 于 描述 如 颜色 、 纹 理 、 形 状 、 动 作 这 些 低级 特征 以 及 如 事件 、 抽 象 概念 
这 些 语义 对 象 的 高 级 特征 。 像 前 面 所 说 的 那样 ， 用 于 自动 、 甚 至 半自动 的 特征 抽取 方法 和 处 理 过 
程 都 不 是 标准 中 的 一 部 分 。 尽 管 在 图 像 、 音 频 处 理 、 计 算 机 视觉 以 及 模式 识别 领域 做 了 大 量 工作 
并 取得 一 些 进 展 ， 但 自动 、 可 靠 的 (特别 是 高 级 别 的 ) 特征 提取 在 近期 还 不 太 可 能 实现 。 

应 该 根据 描述 子 的 性 能 、 效 率 以 及 大 小 的 比较 来 选择 描述 子 ， 表 示 基 本 视觉 特征 的 低级 视觉 
描述 子 [26] 包 括 : 

。 颜色 

颜色 空间 RGB、YcbCr、HSV (色调 ,饱和 度 、 对 比 度 )[18], HMMD。(HueMaxMinDiff) 
[27] 从 RGB 的 一 个 3x3 和 矩阵 推导 出 的 3D 颜色 空间 以 及 单 色 。 

> 颜色 量化 ”线性 、 非 线性 和 查找 表 。 

， 主 颜色 每 个 区 域 或 图 像 中 少数 有 代表 的 颜色 , 在 基于 颜色 相似 性 的 图 像 检 索 中 很 有 用 处 。 

。 可 扩展 的 颜色 在 HSV 颜色 空间 中 的 一 个 颜色 柱状 图 。 用 Haar 变换 进行 编码 ， 因 此 是 
可 扩展 的 。 

颜色 分 布 为 进行 基于 颜色 分 布 的 信息 检索 所 做 的 颜色 在 空间 上 的 分 布 。 

。 颜色 结构 “一 个 颜色 结构 元 素 的 频率 既 描述 颜色 内 容 也 描述 它 在 图 像 中 的 结构 。 颜 色 结 
构 元 素 由 具有 相同 颜色 的 局 部 邻 域 中 的 几 个 图 像样 本 组 成 。 

”由 组 /图 像 组 (Gok/GoP) 颜色 与 可 扩展 颜色 类 似 ， 只 是 它 应 用 于 一 个 视频 段 或 一 个 静 
FARHA. 对 于 GoF/GoP 中 所 有 颜色 柱状 图 的 各 个 柱 进 行 取 平均 、 取 中 值 或 取 交 集 操作 
可 以 得 到 总 的 颜色 柱状 图 ， 然 后 送 至 Haar 变换 。 

。 纹理 

。 同 质 纹 理 ”利用 可 以 定量 表示 同 质 纹理 区 域 的 方向 和 尺度 调整 的 Gabor 滤波 器 [28]。 
Gabor 滤波 器 的 优点 是 可 以 在 空间 和 空间 频率 域内 提供 同步 最 佳 分 辩 率 [291。 而 且 ， 它 
们 是 符合 人 类 视觉 特征 的 带 通 滤波 器 。 一 个 滤波 器 堆 由 30 个 Gabor 滤波 器 组 成 ， 有 5 
种 不 同 的 尺度 ， 每 个 尺度 有 6 种 不 同 的 方向 ， 用 来 提取 纹理 描述 子 。 

。 纹理 浏览 ”用 于 表示 和 浏览 同 质 纹理 的 边 的 规律 性 、 粗 糙 度 和 方向 性 的 描述 [30]。 此 时 
也 要 使 用 Gabor 过 滤器 。 

， 边 柱状 图 表示 4 个 方向 (0°,45°,90°,135° ) 的 边 和 一 个 无 向 边 的 空间 分 布 。 图 像 可 以 
分 为 小 的 子 图 ， 并 为 每 个 子 图 生成 一 个 有 $ 个 柱 的 边界 柱状 图 。 

。 形 状 

”基于 区 域 的 形状 用 一 组 ART (Angular Radial Transform) 系数 来 描述 一 个 对 象 的 形状 。 
一 个 对 象 可 以 由 一 个 或 多 个 区 域 组 成 ， 对 象 中 可 能 会 有 一 些 洞 。ART 转换 是 根据 单位 圆 
上 的 极 坐 标 而 定义 的 二 维 复杂 转换 。ART 基本 函数 在 角度 维和 径 向 维 上 是 分 开 的 。36 
个 基本 函数 〈12 个 角度 和 3 个 径 向 ) 用 来 抽取 形状 描述 子 。 

。 基于 轮廓 的 形状 ”利用 曲率 尺度 空间 (Curvature Scale Space, CCS) 表示 [32] 有 固定 的 
尺度 和 旋转 ， 对 于 非 刚 性 运动 和 部 分 谈 挡 足够 健壮 的 形状 。 
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”三 维 形状 ”对 三 维 网 络 模型 和 形状 索引 的 描述 [33]。 对 于 整个 网 格 的 形状 索引 的 柱状 图 
用 来 作为 描述 子 。 

。 运动 

”摄像 机 运动 固定、 旋转、 倾斜 、 转 动 、 前 后 移动 、 跟 踪 、 上 下 移动 〈 参 见 图 12-18 和 
[34] )。 





J wea 


图 12-18 ”摄像 机 运动 : 旋转、 倾斜 、 转 动 、 前 后 移动 、 跟 踪 以 及 上 下 移动 
《摄像 机 有 一 个 有 效 焦距 记 图 中 表明 摄像 机 开始 位 于 圆 点 ， 面 朝 乙 轴 方 向 ) 


” 对象 运 动 轨道 ”关键 点 C y, z D 的 列表 。 可 选 的 插值 函数 可 用 来 详细 描述 路 径 上 
的 加 速 情况 〈 参 见 [34] )。 
”变量 对 象 运动 ”基本 模型 是 平移 、 旋 转 、 缩 放 、 偏 移 以 及 这 几 种 组 合 的 二 维 仿 射 模型 。 
一 个 平面 透视 模型 和 二 次 模型 可 适用 于 透视 失真 以 及 更 复杂 的 运动 。 
”运动 动作 ”提供 对 视频 的 强度 、 速 度 、 状 态 等 的 描述 。 例 如 ,“ 曲棍球 游戏 中 评分 ”或 
者 “采访 一 个 人 ”这 样 的 视频 。 
。 定 位 
。 区域 定 位 器 ”指定 一 个 有 方形 或 多 边 形 的 图 像 中 区 域 的 定位 。 
”时 空 定 位 器 “描述 视频 序列 中 的 时 间 空间 区 域 。 利 用 一 组 或 多 组 区 域 描述 子 以 及 它们 的 
运动 。 
。 其 他 
”面部 识别 一 个 标准 的 面部 图 像 可 表示 为 一 个 一 维 向 量 ， 然 后 投影 成 一 个 有 49 个 基本 
向 量 的 集合 ， 代 表 所 有 可 能 的 面部 向 量 。 
12.6.2 ”描述 方案 
本 节 给 出 基本 元 素 、 内 容 管理 ,内 容 描 述 、 导 航 和 访问 、 内 容 组 织 以 及 用 户 交互 领域 中 MPEG-7 
描述 方案 的 概述 。 
。 基本 元 素 
”数据 类 型 和 数学 结构 ”向 量 、 和 矩阵 、 柱 状 图 等 。 
”结构 ”链接 媒体 文件 及 定位 段 、 区 域 等 。 
”模式 工具 包括 根 元 素 (MPEG-7XML 文档 和 描述 的 开始 元 素 )、 顶 级 元 素 (为 面向 特 
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定 内 容 的 描述 组 织 DS) 和 打包 工具 〈 将 一 个 描述 的 相关 的 DS 组 件 组 成 包 )。 
。 内 容 管 理 
。 媒 体 描 述 “ 仅 包含 一 个 DS， 即 媒体 信息 DS， 它 由 一 个 媒体 标识 描述 子 和 一 个 或 多 个 媒 
体 规范 描述 子 组 成 ， 媒 体 规范 描述 子 中 包含 诸如 编码 方法 、 代 码 转换 提示 、 存 储 和 传输 
格式 等 信息 。 
， 创 建 和 生成 描述 ”包含 创建 (标题 、 创 建 者 、 创 建 地 点 、 日 期 等 )、 分 类 (类 型 、 语 言 、 
所 属 指引 等 ) 以 及 相关 材料 的 信息 。 
. 内容 使 用 描述 ”提供 关于 使 用 权限 、 使 用 记录 、 可 用 性 以 及 经 费 〈 生 产 成 本 、 内 容 使 用 
的 收入 ) 的 信息 的 各 种 DS. 
。 内容 描 述 
。 结构 化 描述 ” 段 描述 方案 描述 内 容 的 结构 化 方面 。 段 是 一 个 音频 视频 对 象 的 一 部 分 。 段 
之 间 的 关系 通常 用 段 树 表 示 。 当 关系 不 是 纯 层 次 结构 时 ， 可 使 用 段 图 表示 。 

段 描述 方案 可 以 用 一 个 类 对 象 实现 。 它 有 5 个 子 类 ， 即 视听 段 描述 方案 、 音 频段 描述 方案 、 
静态 区 域 描述 方案 、 移 动 区 域 描述 方案 以 及 视频 段 描述 方案 。 子 类 描述 方案 可 以 递归 的 包含 其 
子 类 。 

例如 ， 一 个 静态 区 域 描述 方案 可 以 用 于 从 图 像 的 创建 (标题 、 创 建 者 、 日 期 )、 使 用 (商标 )、 
媒体 (文件 格式 )、 文 本 标注 、 颜 色 柱 状 图 以 及 可 能 的 纹理 描述 子 等 方面 描述 图 像 。 这 个 初始 区 
域 〈 在 这 种 情况 下 是 图 像 ) 可 以 再 分 解 为 许多 区 域 ， 这 些 区 域 也 可 以 有 它们 自己 的 描述 方案 。 

图 12-19 描述 了 一 个 完成 船只 营救 任务 的 视频 段 ， 图 中 一 个 人 从 直 升 飞 机 上 降落 到 船 中 。 视 
频段 中 有 三 个 运动 区 域 。 可 以 构建 一 个 段 图 包含 像 视频 帧 〈 直 升 飞机 、 人 、 船 上 只) 的 空间 关系 组 
合 以 及 区 域 运 动 (上 方 、 上 面 、 紧 邻 、 运 动 朝向 等 ) 的 结构 化 描述 。 





运动 区 域 ， 直升机 运动 区 域 ， 人 运动 区 域 ， 船 
图 12-19 MPEG-7 视频 段 (彩色 插页 中 也 有 此 图 ) 


， 概 念 化 描述 ”包括 内 容 的 更 高 级 别 〈 非 结构 化 ) 描述 ， 例 如 ， 对 篮球 赛 或 湖人 队 球 赛 的 
事件 描述 模式 (Event DS)、 对 John 或 人 的 对 象 描述 方案 、 特 定时 间或 地 点 的 语义 性 质 
的 状态 描述 方案 以 及 对 像 “ 自 由 ”或 “秘密 ”等 抽象 概念 的 概念 描述 方案 。 与 段 描述 方 
案 类 似 ， 概 念 描述 方案 也 可 以 被 组 织 为 一 棵 树 或 图 。 

。 导航 与 访问 

， 摘要 ”为 内 容 的 快速 浏览 和 导航 提供 视频 摘要 , 通常 只 显示 关键 帧 。 支 持 下 列 描述 方案 : 
摘要 描述 方案 、 层 次 摘要 描述 方案 、 重 要 级 描述 方案 、 连 续 摘要 描述 方案 。 层 次 摘要 提 
供 了 一 个 含有 多 级 的 关键 帧 层次 ， 而 连续 摘要 则 提供 幻灯 片 显示 或 者 音频 视频 快 进 ， 并 
且 可 能 有 音频 和 文本 的 同步 。 图 12-20 描述 了 一 个 公园 中 “龙船 ” 赛 视频 的 摘要 。 摘 要 
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组 织 为 三 级 层次 结构 。 人 个 指甲 大 小 的 关键 帧 描述 。 


2. m 
ae Oe Be ok. te oe ee 


图 12-20 视频 摘要 


”分 割 和 分 解 ”这 里 是 指 视图 的 分 割 和 分 解 。 视 图 分 割 〈 由 视图 DS 指定 ) 描述 视听 数据 
的 不 同 空间 视图 和 频率 视图 ， 如 一 个 空间 视图 (可 以 是 一 个 图 像 的 空间 段 )， 时 间 视 图 
(如 在 一 个 视频 的 时 间 段 中 )， 频 率 视图 (如 在 一 个 图 像 的 小 波 子 带 中 ) 或 者 分 辨 率 视图 
(如 在 一 个 指甲 大 小 的 图 中 ) 等 。 视频 分 解 DS 指定 为 了 组 织 视 听 数 据 的 视图 而 进行 的 不 
同 树 或 图 的 分 解 ， 如 一 个 空间 树 DS 一 个 四 又 树 图 像 分 解 )。 

”内 容 的 变化 ”变化 DS 描述 图 像 分 辩 率 、 帧 率 、 颜 色 削减 、 压 缩 等 的 原 数 据 的 变化 。 服 
务 器 利用 它 来 实现 以 特定 的 QoS 在 网 络 和 终端 自 适 应 传输 视听 数据 。 





。 内容 组 织 


”集合 集合 结构 DS 将 音频 视频 内 容 组 成 簇 。 它 指定 了 簇 元 素 的 一 般 性 质 和 簇 之 间 的 关系 。 
”模型 ”模型 DS 包含 可 能 性 模型 DS、 分 析 模 型 DS 以 及 用 来 抽取 采集 属性 和 特征 的 模型 
和 统计 的 分 类 器 DS。 


。 用 户 交互 


”用 户 偏好 DS 描述 用 户 在 视听 内 容 的 消耗 方面 的 偏好 ， 如 内 容 类 型 、 浏 览 模式 、 个 人 
特征 以 及 用 户 喜 好 是 否 可 以 被 分 析 用 户 行为 的 代理 改变 。 


12.6.3 ”描述 定义 语言 

MPEG-7 采用 最 初 由 W3C 开发 的 XML 模式 语言 作为 描述 定义 语言 。 由 于 XML 模式 语言 并 
不 是 专门 为 视听 内 容 设计 的 ， 所 以 要 对 它 进行 扩展 。MPEG-7DDL 大 致 有 如 下 一 些 部 分 : 

e XML 模式 结构 部 分 


”模式 ， 定 义 和 声 明 的 封皮 。 

要 结构 部 分 ， 如 简单 和 复杂 的 类 型 定义 ， 以 及 属性 和 元 素 的 声明 。 

”次 要 结构 部 分 ， 如 属性 组 定义 、 身 份 限 制定 义 、 组 定义 ， 以 及 符号 声明 。 
“助手 ”部 分 ， 如 注释 、 词 级 ， 以 及 通配符 。 


。 XML 模式 数据 类 型 部 分 


。 原始 和 派生 的 数据 类 型 。 
> 用 户 派生 新 数据 类 型 的 机 制 。 
。 比 XML 1.0 更 好 的 类 型 检查 。 


e MPEG-7 扩展 


> 数组 和 矩阵 数据 类 型 。 
。 多 种 媒体 类 型 ， 包 括 音频 、 视 频 以 及 音频 视频 表示 。 
， 枚 举 数据 类 型 MineType、CountryCode、RegionCode、CurrencyCode 以 及 


366 
l 
367 


368 





369 


256 BORD SRARBAW 


CharacterSetCode. 


。 对 描述 子 和 描述 模式 的 知识 产权 管理 及 保护 (PMP). 


12.7 MPEG-21 
跨 入 新 的 世纪 后 ， 多 媒体 几乎 遍布 各 个 领域 。 目 前 ， 内 容 生产 者 和 内 容 消 费 者 的 数目 每 日 递 
增 。 然而， 直到 现在 也 没有 一 个 统一 的 标准 来 定义 、 标 识 、 描 述 、 管 理 以 及 保护 多 媒体 数据 。 
最 新 标准 MPEG-21: 多 媒体 框架 [35] 从 2000 年 7 月 开始 开发 。 它 的 技术 报告 草案 中 称 : 
“MPEG-21 的 目标 是 定义 一 个 多 媒体 框架 ， 使 大 范围 的 网 络 和 设备 中 的 多 媒体 资源 可 以 被 不 
同人 群 透明 而 大 规模 地 使 用 。” 
MPEG-21 中 有 下 列 7 个 关键 元 素 :; 
。 数 宇 条 目 声 阴 ”为 声明 数字 条 目 建立 的 一 种 统一 灵活 的 提取 和 互 操作 的 模式 。 
。 数字 条 目的 标识 和 描述 ”为 数字 条 目的 标识 和 描述 的 标准 化 建立 一 个 框架 ， 而 不 管 它 们 的 
来 源 、 类 型 或 粒度 。 
。 内 容 管 理 和 使 用 ”提供 一 个 接口 和 协议 ， 使 内 容 的 管理 和 使 用 查询、 高 速 缓存 、 存 档 和 
分 配 等 ) 更 方便 。 
。 知 识 产 权 管理 和 保护 (IPMP)〉 ”使 内 容 能 被 可 靠 的 管理 和 保护 。 
。 终端 各 网络 ”对 在 大 范围 的 网 络 和 终端 七 有 QoS 要 求 的 内 容 进行 互 操作 和 透明 访问 。 
。 内 容 表 示 ”以 一 种 适当 的 方式 来 表示 内 容 ， 以 实现 MPEG-21 的 目标 ， 即 “随时 随地 的 内 
容 ”。 
。 事件 报告 ”为 报告 事件 (用 户 交 互 ) 建立 度量 和 接口 ， 以 便 理 解 性 能 和 选择 。 
2003 年 ，MPEG-21 的 9 个 部 分 中 的 大 多 数 成 为 国际 标准 。MPEG-21 的 开发 涉及 与 许多 国际 
组 织 以 及 标准 化 团体 , 包括 W3C、MSF、SMPTE 及 DAVIC 的 协作 。 该 标准 的 目标 是 非常 远大 的 。 
与 MPEG 早期 的 成 功 标准 相 比 ， 它 所 带 来 的 效率 及 影响 将 指日可待 。 


12.8 进一步 探索 

Puri 和 Chen 的 书 [3] 以 及 Pereira 和 Ebrahimi 的 书 [36] 中 对 MPEG-4 进行 了 比较 详细 的 介绍 。 
Manjunath, Salembier 和 Sikora 的 书 [37] 对 MPEG-7 进行 了 论述 。 

本 章 网 页 的 Further Exploration 部 分 提供 了 下 面 链接 ， 

。MPEG 主页 。 

e MPEG 的 FAQ 页 。 

。 MPEG-4 的 综述 、 教 程 和 工作 文档 。 

。 MPEG-4 Part10/H.264 的 教程 。 

。MPEG-7 的 概述 和 MPEG-21 的 工作 文档 。 

。 构 成 MPEG-7 DDL 基础 的 XML 模式 文档 。 


12.9 练习 

1. MPEG-4 运动 补偿 被 认为 是 基于 VO (视频 对 象 平面 ) 的 。 而 最 终 ， 为 了 运动 补偿 ，VOP 仍 
然 被 分 成 宏 块 〈 内 部 宏 块 、 边 界 宏 块 等 )。 
(a) 当前 实现 的 潜在 问题 是 什么 ? 如 何 改 进 ? 
(b) 有 真正 的 基于 VOP 的 运动 补偿 吗 ? 与 当前 的 实现 相 比 如 何 ? 

2. MPEG-1、2、4 是 著名 的 解码 器 标准 。 而 压缩 算法 (编码 器 的 细节 ) 仍然 要 留待 将 来 做 改进 和 
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开发 的 。 对 于 MPEG-4 来 说 ， 视 频 对 象 分 割 的 主要 问题 ，( 即 如 何 获得 VOP) 没有 具体 说 明 。 
(a) 提出 一 种 你 自己 处 理 视 频 对 象 分 割 的 方法 。 

Cb) 你 的 方法 中 有 哪些 潜在 的 问题 ? 

.为 什么 要 在 MPEG-4 基于 VOP 的 编码 中 引入 填充 ? 说 出 填充 存在 的 问题 。 
.运动 向 量 可 以 是 半 像 素 精度 。 特 别 的 ， MPEG-4 在 亮度 VOP 中 人 允许 1/4 像素 精度 。 描 述 一 个 
可 以 实现 这 个 精度 的 算法 。 

.编程 实现 计算 下 面 8x8 的 块 的 SA-DCT: 


00 0 0 14 0 0 
0 8 16 32 16 8 
0 16 32 64 32 16 
0 32 64 128 64 32 
0 0 32 64 32 0 
16 0 0 32 0 0 
0 0 0 146 0 0 
00 0 0 0 0 0 


oo F&F Oo fF FA 
oo oo oO 09 OO 


. 与 普通 DCT 相 比 ，SA-DCT 的 计算 开销 有 多 大 ? 假设 视频 对 象 是 一 个 8X8 块 中 间 的 一 个 4x4 
的 正方 形 。 
.可 将 仿 射 转换 组 合 进行 复合 仿 射 转换 。 证 明 复 合 仿 射 转换 具有 形式 完全 相同 的 矩阵 〈 最 后 一 
IAO) 且 最 多 有 6 级 自由 度 ， 用 参数 cl、ai、amli、ap、az2、aq 表示。 
. 基于 网 格 的 运动 编码 应 用 于 二 维 动画 和 面部 动画 时 的 效果 很 好 。 当 它 应 用 在 人 体 动画 中 时 主 
要 有 哪些 问题 ? 
.MPEG-4 是 如 何 进行 基于 VOP 的 运动 补偿 的 ? 简 述 必要 的 步骤 并 画 出 块 图 来 说 明 数 据 流向 。 
. 开发 MPEG-7 的 主要 动机 是 什么 ? 给 出 现实 世界 的 应 用 中 得 益 于 MPEG-7 的 三 个 例子 。 
.“ 基 于 区 域 ” 和 “基于 轮廓 ”是 MPEG-7 中 两 个 主要 的 形状 描述 子 。 显 然 ， 描 述 区 域 和 轮廓 的 
形状 有 很 多 种 方法 。 
(a) 你 更 喜欢 哪 种 形状 描述 子 ? 
(b) 与 MPEG-7 中 的 ART 和 CSS 相 比 如 何 ? 
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第 13 章 “音频 压缩 技术 基础 


在 多 媒体 系统 中 ， 音 频 信息 的 压缩 有 一 些 特别 之 处 。 某 些 技术 是 我 们 所 熟悉 的 ， 而 另外 一 些 
则 是 比较 新 的 技术 。 在 本 章 中 ， 我 们 将 简单 介绍 语音 压缩 的 基本 技术 ， 这 是 一 个 具有 很 长 历史 并 
且 非 常 宽泛 的 研究 领域 。 更 多 的 信息 可 以 参考 本 章 的 13.4 节 和 参考 文献 。 

在 下 一 章 中 ， 我 们 将 介绍 在 运动 图 像 专家 组 (MPEG)〉 的 支持 下 开发 的 一 组 音频 压缩 工具 。 
由 于 多 媒体 领域 的 读者 往往 会 对 这 一 部 分 很 感 兴趣 ， 因 此 我 们 将 对 该 主题 进行 详细 介绍 。 

首先 我 们 将 回顾 第 6 章 中 关于 多 媒体 数字 音频 的 介绍 ， 如 用 于 扩展 数字 音频 的 h 率 。 这 经 常 
要 和 利用 时 间 宛 余 的 简单 技术 结合 使 用 。 在 第 10 章 中 我 们 了 解 到 ， 在 视频 压缩 中 ， 当 前 时 间 和 
过 去 时 间 之 间 的 信号 的 差 值 可 用 以 有 效 减少 信号 值 的 大 小 , 更 重要 的 是 , 将 像素 值 (现在 是 差 值 ) 
的 直方 图 聚集 在 一 个 相对 较 小 的 范围 内 。 降 低 值 间 差异 的 结果 是 大 大 减少 业 值 ， 这 样 后 续 的 赫 夫 
曼 编码 就 可 以 产生 具有 较 高 压缩 率 的 位 流 。 

同样 的 道理 也 可 以 应 用 在 这 里 。 回 顾 一 下 ， 第 6 章 中 介绍 过 ， 量 化 后 的 采样 输出 称 为 脉冲 编 
码 调制 (PCM)， 其 差分 版 本 称 为 DPCM， 自 适应 版 本 则 称 为 ADPCM。 考 虑 语音 性 质 的 变 体 也 
遵循 以 上 定义 。 

在 本 章 中 ， 我 们 将 介绍 自 适应 差分 脉冲 编码 调制 (ADPCM)、 声 音 合成 器 和 更 为 通用 的 语音 
压缩 : LPC. CELP, MBE 和 MELP。 


13.1 语音 编码 中 的 ADPCM 
ADPCM 


ADPCM 构成 ITU 的 语音 压缩 标准 G.721、G.723、G.726 和 G.727 的 核心 (参见 13.4 节 中 这 些 
标准 的 代码 )。 这 些 标准 的 区 别 涉 及 码 率 和 算法 的 某 些 细节 。 默 认 的 输入 是 率 编码 的 PCM 16 位 采 
FE. ADPCM 的 语音 性 能 可 以 达到 让 32kbps 的 语音 质量 仅 次 于 标准 的 64kbps PCM 传输 ， 而 优 于 
DPCM. 

图 13-1 显示 了 说 单词 “audio” 时 产生 的 一 秒 的 语音 采样 。 在 图 13-1a 中 ， 语 音信 和 号 被 保存 为 
线性 PCM (和 默认 的 上 L 律 PCM 相对 )， 每 秒 8 000 个 采样 且 每 个 采样 为 16 位 。 在 使 用 G.721 进 
行 ADPCM 压缩 后 ， 信 号 如 图 13-lb Pras. A 13-lc 显示 了 实际 和 重建 压缩 信号 之 间 的 差 值 。 尽 
管 从 技术 角度 来 说 , 两 者 的 区 别 很 明显 , 但 从 感知 的 角度 来 说 , 原始 信号 和 压缩 信号 是 非常 相似 的 。 

1.0 1.0 1.0 


0.5 0.5 0.5 











-1.0 -1.0 -1.0 
0 2000 4000 6000 8000 0 2000 4000 6000 8000 0 2000 4000 6000 8000 
时 间 时 间 时 间 
a) 语音 样本 ，8kHz 的 线性 b) 语音 采样 ， 从 G.721 压缩 的 c) a Ñ b 的 信号 差 值 
PCM， 每 个 采样 为 16 位 音频 中 还 原 ， 每 个 采样 为 4 位 


图 13-1 单词 “audio” 的 波形 
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13.2 G.726 ADPCM 


ITU 的 G.726 标准 取代 了 G.721 和 G.723。 它 提供 了 另 一 个 版 本 的 G.711， 其 中 包括 低 码 率 的 
扩展 。G.726 可 以 将 13 位 或 14 位 的 PCM 采样 、8 位 的 A 率 或 n 率 编码 数据 编码 为 2~5 位 的 码 字 。 
它 可 以 用 于 在 数字 网 络 、 视 频 会 议和 ISDN 通信 中 进行 语音 传输 。 

G.726 标准 以 一 种 简单 的 方式 通过 调整 固定 的 量化 器 来 工作 。 不 同 长 度 的 码 字 使 用 16kbps、 
24kbps, 32kbps 或 40kbps 的 码 率 ， 其 中 采样 率 为 8kHz。 标 准 定义 了 一 个 常量 乘 数 w， 它 可 以 根 
据 当 前 信号 的 尺度 来 改变 差 值 e,。 我 们 按 如 下 方式 定义 比例 化 的 差 值 信号 fa: 

En = Sn — Sn 

fn=en/0 
这 里 $, 表示 预测 信号 值 。 户 将 被 输入 量化 器 进行 量化 。 量 化 器 如 图 13-2 所 示 。 这 里 ， 输 入 值 定 
义 为 差 值 和 因子 a 之 间 的 比 。 

通过 改变 Qa 的 值 ， 量 化 器 可 以 在 差 值 信号 的 范围 内 
进行 自 适应 改变 。 由 于 量化 器 是 非 均匀 的 中 宽 量 化 器 ， 5 
所 以 它 包 括 零 值 。 量 化 器 是 后 向 自 适 应 的 。 输出 0 

原则 上 ， 后 向 自 适应 的 量化 器 会 关心 是 否 有 太 多 的 -5 
值 被 量化 为 远离 零 的 值 〈 量 化 器 的 步 长 太 小 ) 或 被 量 
化 为 太 过 靠近 零 的 区 间 (量化 器 的 步 长 太 大 )。 o 3 0 5 

事实 上 ，yjJayant[1H] 的 算法 允许 我 们 在 得 到 一 次 输出 输入 。 
的 结果 后 就 调整 后 向 量化 器 的 步 长 。 如 果 量 化 输入 超出 132 G.726 量化 器 376 
了 量化 范围 , Jayant 量化 器 将 增 大 步 长 , 反之 则 缩小 步 长 。 

假设 我 们 有 均匀 量化 器 ， 我 们 比较 输入 值 的 值 域 大 小 均 为 A。 例 如 ， 对 于 3 位 的 量化 器 来 说 ， 

一 共有 k=0~7 层 。 对 于 3 位 的 G.726， 则 只 使 用 7 个 层 ， 并 在 零 的 附近 聚集 。 

Jayant 量化 器 为 每 一 层 赋予 乘 数值 Mi， 靠 近 零 的 层 的 值 小 于 1， 而 外 层 的 值 则 大 于 1. HH 
值 将 与 下 一 个 信号 值 的 步 长 相 乘 。 这 样 ， 外 层 值 将 会 扩大 步 长 ， 很 可 能 会 使 下 一 个 量化 值 回 到 可 
用 层 的 中 间 位 置 。 而 位 于 中 间 层 次 的 量化 值 很 可 能 会 减 小 步 长 ， 并 且 会 使 下 一 个 量化 值 更 加 接近 
外 层 。 

所 以 ， 对 于 信号 f, ， 量 化 器 步 长 A 将 会 根据 下 面 的 简单 公式 ， 随 着 前 一 个 信号 值 ,的 量化 
{Bi k FEAL: 


(13.1) 


10 


A|] M,A (13.2) 
由 于 信号 的 不 同 量 化 版 本 导致 了 这 种 变化 ， 这 就 可 以 认为 是 后 向 自 适应 的 量化 器 。 

在 G.726 中 ，Q 如 何 变化 取决 于 音频 信号 是 真实 的 语音 还 是 仅仅 利用 声带 的 数据 。 在 前 一 种 
情况 下 ， 采 样 间 的 差 值 可 能 会 有 很 大 的 波动 ， 而 在 后 一 种 情况 下 则 略 有 不 同 。 为 了 适应 不 同 的 情 
况 ， 因 子 o 将 根据 一 个 由 两 部 分 组 成 的 公式 进行 调整 。 | 

G.726 是 使 用 固定 量化 步 长 的 后 向 自 适 应 Jayat 量化 器 ， 其 步 长 是 基于 输入 差 值 信号 e, RU 
Q 的 对 数 确定 的 。 除 数 a 的 对 数 形式 为 : 

B =log.a (13.3) 
由 于 我 们 希望 区 分 差 值 较 小 和 差 值 较 大 的 情况 ， 所 以 o 被 划分 为 锁定 部 分 ar 和 非 锁定 部 分 ar 。 


我 们 的 想法 是 ， 把 锁定 部 分 作为 小 差 值 的 比例 因子 ， 它 的 变化 非常 缓慢 ， 而 非 锁定 部 分 则 用 于 大 
的 差 值 。 它 们 分 别 对 应 于 对 数 p. 和 By 。 
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对 数值 可 以 写成 两 部 分 值 的 和 ， 如 下 所 示 : 
B= ABy +(1- A)BL (13.4) 
这 里 4 可 以 变化 ， 对 于 语音 它 的 值 约 为 1， 而 对 于 声带 数据 ， 它 的 值 则 约 为 0。 它 可 以 根据 信号 
的 方差 计算 得 到 ， 以 反映 过 去 的 信和 号 值 。 
非 锁定 部 分 根据 下 面 的 公式 进行 变化 : 


Ay — M,ay 
Bu < log: M; + Bu 

Et, MÆR k ER Jayant 乘 数 。 锁 定 部 分 通过 对 非 锁定 部 分 稍 做 修改 得 到 ， 修 改 的 公式 如 下 : 
Br — -B)B. + BBu (13.6) 


(13.5) 


这 里 B 是 一 个 很 小 的 数 ， 例 如 2 。 
G.726 的 预测 程序 比较 复杂 : CEH 6 个 量化 差 值 和 从 先前 6 个 信号 值 ,中 得 到 的 两 个 重建 
信号 值 的 线性 合成 。 


13.3 声音 合成 器 


到 现在 为 止 ， 我 们 所 研究 的 编码 器 〈 编 码 /解码 算法 ) 可 以 应 用 于 任何 类 型 的 信号 ， 而 不 限于 
语音 。 上 声音 合成 器 是 专门 的 声音 编码 器 。 因 此 ， 它 无 法 应 用 于 其 他 类 型 的 模拟 信号 ， 如 调制 解 调 
器 信和 号 。 

声音 合成 器 考虑 对 语音 建 模 ， 以 便 用 尽 可 能 少 的 位 捕获 最 为 显著 的 特征 。 它 们 可 以 使 用 语音 
波形 时 间 的 模型 (线性 预测 编码 (Linear Predictive Coding, LPC) 声音 合成 )， 也 可 以 将 信和 号 分 解 
为 频率 分 量 后 再 进行 建 模 (通道 声音 合成 器 和 共振 峰 声 音 合 成 器 )。 , 

巧合 的 是 ， 我 们 都 知道 声音 合成 器 对 声音 进行 模拟 的 效果 并 不 理想 一 一 当 图 书馆 通过 电话 进 
行 逾期 通知 时 ， 自 动 合成 的 语音 会 因为 缺少 语调 而 让 人 感觉 非常 怪异 。 

13.3.1 相位 不 敏感 性 


回顾 8.5 节 ， 我 们 使 用 仿 里 叶 分 析 的 变形 来 进行 分 析 ， 从 而 将 信号 分 解 为 其 构成 频率 。 原 则 
上 ， 我 们 也 可 以 使 用 于 上 述 方法 得 到 的 频率 系数 来 还 原 信号 。 但 事实 上 ， 从 感知 的 角度 来 说 ， 将 
语音 波形 完全 还 原 是 没有 必要 的 ， 也 就 是 说 ， 只 要 保证 在 任意 时 刻 的 能 量 基本 正确 ， 那 么 信号 听 
起 来 基本 正确 就 可 以 了 。 

“相位 ”是 在 时 间 函 数 内 时 间 参 数 的 一 个 偏 移 
E. ARR TMS, PET ROUTER 
曲线 的 声音 cos(oD， 其 中 ao=2rxyf. 如 果 我 们 等 待 足够 
长 的 时 间 以 产生 一 个 相位 偏 移 w/2， 然 后 按 下 另外 一 
MB, PERE cos(20x+Hrw2)， 就 得 到 了 如 图 13-3 
中 实 线 所 示 的 波形 。 这 个 波形 是 cos(on+cos(2otHrv2) 
的 和 。 0.0 0.5 1.0 1.5 2.0 2.5 3.0 

如 果 我 们 没有 等 待 而 是 直接 按 下 第 二 个 音符 叶 风 (msec) 
(1/4ms， 在 图 13-3 中 )， 那 么 得 到 的 波形 将 会 是 图 13-3 实 线 表 示 两 段 具 有 相位 差 的 余弦 曲线 
cos(OD+cos(200。 然 而 从 感知 上 来 说 ,这 两 个 音符 听 “的 登 加 ， 虚 线 表示 没有 相位 差 的 玲 加 。 两 者 的 
起 来 是 相同 的 ， 尽 管 它们 之 间 存 在 着 相位 的 偏 移 。 ”波形 是 不 同 的 ， 但 听 起 来 的 效果 却 非常 相似 

因此 ， 只 要 我 们 可 以 使 得 能 量 频 谱 分 布 正确 〈 它 决定 我 们 听见 的 声音 是 响亮 的 还 是 轻微 的 )， 
那 我 们 就 无 须 担心 波形 的 确切 形式 。 
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13.3.2 ”通道 声音 合成 器 

子 带 滤波 是 使 用 让 模拟 信号 通过 一 排 带 通 滤波 器 的 过 程 ， 以 便 实现 侍 里 叶 分 析 中 的 频率 分 
解 。 子 带 编码 是 使 用 这 个 滤波 过 程 所 得 到 的 信息 来 获得 更 好 的 压缩 效果 的 过 程 。 

例如 ， 一 个 较 早 的 ITU 标准 G.722 使 用 子 带 滤波 将 模拟 信号 分 解 为 两 个 频带 :50Hz~3.5kHz 
和 3.5~7kHz 的 声音 频率 。 然 后 ， 低 频 信号 通过 48kbps 发 送 ， 我 们 可 以 很 容易 地 听 出 差异 ; 而 高 
频 信号 则 通过 16kbps RIX. 

声音 合成 器 可 以 在 较 低 的 码 率 下 (1~2kbps) 工作 。 为 此 ， 通 道 声音 合成 器 首先 使 用 一 组 滤波 
器 将 信和 号 分 解 为 不 同 的 频率 分 量 ， 如 图 13-4 所 示 。 然 而 ， 正 如 我 们 刚才 所 介绍 的 那样 ， 只 有 能 量 
是 重要 的 ， 所 以 首先 将 波形 “修正 ”为 它 的 绝对 值 。 这 组 滤波 器 将 为 每 个 频率 范围 产生 能 量 的 相 
对 强度 。 子 带 编码 器 不 会 对 信号 进行 修正 ， 并 将 使 用 更 宽 的 频带 。 

通道 声音 合成 器 还 进行 信号 分 析 ， 以 决定 语音 总 的 音调 一 一 低 〈 男 低音 ) 或 高 〈 男 高 音 )， 
以 及 语音 的 激励 。 语音 激励 主要 由 声音 是 由 浊音 还 是 清音 发 出 的 。 若 一 个 声音 是 由 清 辅音 发 出 的 ， 
其 信和 号 很 简单 ， 看 起 来 像 噪声 ;，s 和 f 就 发 清音 。 而 元 音 a、e 和 o 就 发 浊音 ， 其 声波 是 周期 性 的 。 
图 13-1 中 单词 “audio” 结 尾 的 o 就 有 明显 的 周期 性 。 在 一 个 元 音 中 ， 空 气 从 声带 以 均匀 而 短促 
的 气流 压 出 ， 速 率 是 男性 75~150 脉冲 / 秒 ， 女 性 为 150~250 脉冲 / 秒 。 

辅音 可 以 分 为 清 辅音 和 沁 辅 音 。 而 对 于 字母 m 入 的 鼻音 , 声带 的 振动 使 声音 从 鼻腔 中 发 出 ， 
而 不 是 口腔 。 这 些 辅音 是 浊 辅 音 。 而 对 于 d 和 8， 它们 也 是 浊 辅 音 ， 开 始 发 音 时 嘴 是 闭合 的 ， 
然后 根据 后 面 的 元 音 打开 ， 这 个 过 程 将 经 历 几 毫 秒 。 浊 辅音 的 能 量 高 于 清 辅 音 ， 但 低 于 元 音 。 清 
辅音 的 例子 包括 sh thmh ( 当 它 们 用 于 单词 开头 的 时 候 )。 

通道 声音 合成 器 应 用 声 道 转换 模型 来 产生 一 个 描述 声音 模型 的 激励 参数 向 量 。 声 音 合 成 器 同 
样 也 会 猜测 声音 是 浊音 还 是 清音 ， 对 于 浊音 ， 还 要 估计 其 周期 〈 也 就 是 声音 的 音调 )。 图 13-4 E 
示 解 码 器 同样 使 用 声 道 模型 。 

SEB 


低频 滤波 器 ， 


从 第 一 个 分 析 滤波 器 
从 第 二 个 分 析 滤波 器 
从 第 三 个 分 析 滤波 器 
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图 13-4 通道 声音 合成 器 


由 于 浊音 可 以 通过 正弦 曲线 来 近似 ， 一 个 周期 性 的 脉冲 发 生 器 可 以 用 来 重 现 浊音 。 由 于 清音 
和 噪声 比较 类 似 ， 因 此 一 个 伪 噪 声 发 生 器 可 以 用 来 重 现 清音 ， 所 有 的 值 都 通过 由 带 通 滤波 器 组 得 
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到 的 能 量 估 值 来 进行 比例 协调 。 通 道 声音 合成 器 可 以 使 用 2 400bps 得 到 一 个 智能 的 、 但 是 是 人 工 
合成 的 语音 。 


13.3.3 ”共振 峰 声 音 合成 器 


在 语音 中 ， 并 非 所 有 的 频率 都 是 等 强度 分 布 的 ， 只 有 某 个 部 分 的 频率 非常 强烈 ， 其 他 部 分 的 
频率 的 则 相对 较 弱 。 这 是 语音 形成 方式 的 直接 结果 ， 它 是 通过 在 嘴 、 喉 、 鼻 等 器 官 中 的 一 些 器 室 
中 共振 得 到 的 。 重 要 的 频 峰 称 为 共振 峰 (formant) [2]. 

图 13-5 显示 了 上 述 结论 是 如 何 出 现 的 : 只 有 几 个 , 通常 为 4 个 左右 ， 处 在 某 个 频率 的 能 量 峰 
值 。 然 而 ， 随 着 语音 的 继续 ， 峰 值 的 出 现 点 也 随 之 变化 。 例 如 ， 两 个 不 同 的 元 音 将 会 激活 不 同 的 
共振 峰 一 一 这 反映 了 构成 每 个 元 音 的 不 同 的 声 道 配 
BAX. 通常 ， 只 需要 分 析 一 小 段 语音 ， 如 10~40 毫 | 
秒 ， 就 可 以 找到 共振 峰 。 共 振 峰 合成 器 通过 对 最 重要 
的 频率 进行 编码 来 工作 , 共振 峰 只 能 在 1 000bps 生成 


abs (RRO 


可 接受 的 智能 语音 。 
13.3.4 ”线性 预测 编码 0 2 4 6 8 10 13 16 19 22 25 28 31 
LPC (Linear Predictive Coding， 线 性 预测 编码 ) 频率 《8 000/32Hz) 


声音 合成 器 从 波形 中 提取 语音 的 最 显著 的 特征 , 而 不 ”图 13-5 共振 峰 是 在 语音 样本 中 出 现 的 重要 
是 将 信号 转化 至 频 域 。LPC 编码 使 用 由 给 定 激励 产生 的 频率 分 量 。 在 图 中 ， 实 线 显示 图 6-15 的 语 
的 时 变声 道 模型 。 传 输 的 内 容 不 是 实际 的 信号 或 差 音 样本 中 前 40ms 出 现 的 频率 。 虚 线 显示 了 
值 ， 而 是 用 来 对 声 道 的 形状 和 激励 进行 建 模 的 参数 。 类 似 的 频率 在 1s 后 出 现 ， 它 们 之 间 有 位 移 

由 于 发 送 的 是 对 声音 的 分 析 而 非 声音 本 身 ， 因 此 使 用 LPC 的 码 率 很 低 。 这 和 使 用 简单 的 描述 
符 〈 如 MDD 来 生成 音乐 类 似 ， 我 们 仅仅 发 送 描述 参数 ， 而 让 声音 发 生 器 尽 可 能 地 生成 合适 的 
音乐 。 不 同 之 处 在 于 除了 音调 、 时 长 和 响 度 变量 之 外 ， 在 这 里 我 们 还 要 发 送 声 道 激 励 参 数 。 

在 对 一 组 称 为 片段 (segment) Be (frame) 的 数字 化 样本 进行 分 析 之 后 ， 由 输出 声 道 模型 
生成 的 语音 信号 将 由 当前 语音 输出 加 上 先前 模型 系数 的 线性 值 的 一 个 函数 计算 得 到 。 这 就 是 编 
码 器 名 称 中 “线性 ”一 词 的 由 来 。 这 个 模型 是 自 适应 的 ， 即 编码 器 端 会 为 每 个 新 片段 发 送 一 组 
新 的 系数 。 

先前 系数 组 的 典型 数量 是 N=10 (“模型 阶 数 ” 是 10), 这 样 一 个 LPC-10[3] 系 统 通 常 使 用 2.4kbps 
的 速率 。 模 型 的 系数 a, 作 为 预测 系数 ， 并 且 要 乘 上 先前 的 语音 输出 样本 值 。 

LPC 首先 决定 当前 片段 是 清音 还 是 浊音 。 对 于 清音 部 分 ， 使 用 宽带 噪声 发 生 器 来 生成 样本 值 
Am) 作为 声 道 模拟 器 的 输入 。 对 于 浊音 部 分 ， 使 用 脉冲 串 发 生 器 来 生成 值 tn)。 模 型 参数 a; 则 通过 
最 小 二 乘 方程 组 来 计算 ， 它 将 使 实际 语音 和 声 道 模型 所 产生 的 结果 之 间 的 差 值 最 小 。 声 道 模型 则 
通过 捕获 语音 参数 的 噪声 或 脉冲 串 发 生 器 来 激励 。 

如 果 用 s(n) 表 示 产 生 的 输出 值 ， 那 么 对 于 输入 值 Kn)， 输 出 取决 于 先前 的 输出 样本 值 >， 它们 
之 间 有 以 下 关系 ; 


s(n)=¥ ais(n—i) + Gf (n) (13.7) 


i=l 
这 里 ，G 表示 增益 系数 。 注 意 ， 系 数 a; 作 为 线性 预测 器 模型 中 的 值 。 伪 噪声 发 生 器 和 脉冲 发 生 器 
如 上 面 的 讨论 ， 图 13-4 关于 通道 声音 合成 器 的 内 容 中 有 相关 描述 。 
语音 编码 器 以 逐 块 编码 的 方式 工作 。 输 入 的 数字 信号 被 划分 成 定 长 的 小 段 进行 分 析 ， 每 个 小 
段 称 为 语音 帧 。 对 于 LPC 语音 编码 器 ， 常 用 22.5 毫秒 的 帧 ， 即 在 8kHz 采样 的 语音 中 有 180 个 采 
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样 点 。 语 音 编 码 器 分 析 语 音 帧 来 获得 各 种 参数 ， 例 如 LP AMaj(i=1..p). Ma G、 音 调 P、 以 


及 清音 /浊音 判定 U/V。 
为 了 求 得 LP 系数 ， 我 们 需要 求解 下 列 关 于 aj 的 极 小 值 问题 ; 


min E{ Ls- $ ajs(n— DY} 
j=l 


取 ai 的 导数 ， 并 设 其 为 0， 我 们 得 到 一 个 由 p 个 方程 组 成 的 方程 组 : 


E{{s(n)-¥. a)s(n— f)ls(n—i)} =0, i=1... 
j=l 


WO, j) = Els(n-i)s(n— jf}, BATA 
LD 90,2) > OC, p) || a 


POD 9(2,2) = (2, p) || a |_| 90,2 


¢(p,1) ¢(p,2) vee (PD, p) ap 
常常 用 自 相关 法 来 求解 LP 系数 ， 其 中 


N-1 N-1 
oi, j)= Foti /Es0 i=0... P: j=l... P 


n=p n=p 


sw(n) = s(n+m)w(n) 是 从 时 间 m 开始 的 加 窗 语 音 帧 。 因 为 g(i,j) 仅仅 由 上 -着 决定 ， 我 们 定义 
9(i 一 站 = Ri 一 四。 因为 RCO)>0， 所 以 矩阵 {9(i, 门 ) 是 正 对 称 的 ， 于 是 得 到 下 面 所 示 的 快速 计算 


LP 系数 的 方法 。 


过 程 13-1 LPC 系数 

E(0) = R(0),i=1 
while i < p 

hh=[RO- LaF RG- PV EG-Y 

al =k, 

for j=ltoi-1 

ai =a ~ kat} 

E@=(1-k)EG-1) 

ici+l 
for j=1to p 


aj=a? 
求 得 LP 系数 以 后 ， 用 下 面 的 公式 来 求 增益 G: 


G=E{ [s(n) -$ ajs(n- DY) 
jet 
= E{[s(n) -$a s(n— j)\s(n)} 
jel 


P 
=¢(0,0)- ,a0(0, j) 
jal 


(13.8) 


(13.9) 


(13.10) 


(13.11) 


(13.12) 
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在 自 相关 方案 中 ，G = R(0) -了 7,ajR(j)。 阶 数 为 10 的 信号 分 析 完全 能 够 满足 语音 编码 的 
需要 。 
通过 自 相关 法 找到 语音 峰值 的 下 标 能 够 求 出 当前 语音 帧 的 音调 P: 
v(i) = > s(n)s(n—i) [> s? wÈ s?’ (n-i)? (13.13) 
ie [Fnin, Pmax] 
对 于 8kHz 的 语音 采样 , 查找 范围 [Psi, Prax 1 通常 设 成 [12,140] -Bit P 是 峰值 延 时 。 如果 WP) 
小 于 某 个 闪 值 ， 则 当前 语音 帧 被 认为 是 浊 语 音 帧 ， 在 接收 端 可 以 通过 一 个 白 噪声 序列 模拟 来 加 以 
重 构 。 否 则 ， 就 认为 当前 语音 帧 是 清音 的 ， 在 重 构 阶 段 使 用 一 个 周期 性 的 波形 来 模拟 。 在 实际 的 
LPC 语音 编码 器 中 ,音调 估计 和 UV 判定 一 般 基 于 动态 编程 方案 ， 这 样 可 以 纠正 经 常 出 现 的 在 单 
个 语音 帧 中 音调 重合 或 者 分 割 的 错误 。 
在 LPC-10 中 ， 每 个 语音 段 有 180 个 采样 ， 即 在 8kHz 的 采样 频率 下 以 22.5 毫秒 为 间隔 采样 。 
传输 的 语音 参数 主要 是 系数 a, G (增益 因子 )， 清 音 / 浊 音标 志 C 位 )， 以 及 清音 语音 帧 的 音调 
周期 。 


13.3.5 CELP 


CELP 是 码 激 励 线 性 预测 的 首 字母 简写 (Code Excited Linear Prediction)， 有 时 也 称 为 码 本 激 
励 (codebook excited)。 它 是 一 组 更 加 复杂 的 编码 器 ， 它 试图 通过 更 加 复杂 的 激励 描述 机 制 来 弥 
补 简单 的 LPC 模型 在 语音 质量 上 的 缺陷 。 它 使 用 一 个 完整 的 激励 向 量 集合 (一 个 码 本 ) 来 和 真 
实 的 语音 匹配 。 把 最 佳 匹 配 项 的 序号 发 送 给 接收 者 。 这 样 做 所 导致 的 复杂 性 使 得 数据 率 增加 到 
4 800~9 600bps。 

在 CELP 中 ， 因 为 所 有 的 语音 段 使 用 的 是 同一 个 模板 码 本 中 的 同一 个 模板 集 ， 所 以 最 后 的 语 
音 听 起 来 比 LPC-10 编码 器 中 使 用 双 态 激励 机 制 得 到 的 结果 要 好 很 多 。 CELP 所 达到 的 声音 质量 可 
以 满足 音频 会 议 的 需要 。 

在 会 议 系统 中 , 我 们 需要 较 低 的 数据 率 , 而 且 语 音 的 感受 质量 也 必须 在 一 个 可 以 接受 的 水 平 。 

在 CELP 中 ， 使 用 两 种 预测 方法 来 消除 语音 信号 中 的 元 余 ， 它 们 是 长 时 预测 CLIP) 和 短 时 
预测 (STP). STP 是 一 种 对 采样 点 进行 分 析 的 技术 ， 它 希望 通过 前 面 已 有 的 预测 值 来 推测 下 一 个 
采样 值 。 在 这 里 ， 产 生 元 余 的 主要 原因 是 一 个 采样 点 相对 前 面 几 个 采样 点 不 会 产生 太 大 的 变化 。 
LIP 的 主要 思想 是 ， 对 于 语音 特别 是 浊音 ， 在 一 段 内 或 者 在 段 与 段 之 间 ， 一 个 基本 的 周期 或 音调 
会 使 得 同一 个 波形 反复 出 现 。 我 们 可 以 通过 找到 语音 音节 的 方法 来 消除 这 种 元 余 。 

假设 我 们 用 8kHz 来 采样 ， 使 用 10 毫秒 的 帧 ， 一 共 80 个 采样 点 。 我 们 希望 的 大 致 的 重复 的 
KEE 12~140 个 采样 点 《实际 上 每 个 音节 比 我 们 实际 选择 的 帧 长 要 长 )。 

STP 基于 短 时 LPC 分 析 ， 我 们 将 在 后 面 的 小 节 中 讨论 。 之 所 以 称 为 “ 短 时 ”， 是 因为 在 预测 
过 程 中 ， 只 有 一 些 采 样 点 ， 而 不 涉及 整个 一 帧 或 者 几 帧 语音 。STP 也 要 求 整个 语音 帧 中 的 残 差 最 
小 ， 不 过 它 仅仅 体现 了 很 短 的 一 段 语音 之 间 的 关联 (在 10 Bt LPC PARE 10 个 采样 点 )。 

经 过 STP 处 理 后 ， 我 们 用 原 信 号 值 减 去 预测 值 ， 就 进入 了 差分 编码 的 阶段 。 然 而 ， 即 使 是 在 
误差 值 集合 e(n) 中 ， 序 列 中 还 存在 基本 的 语音 音节 。 这 时 候 就 要 使 用 LIP. LIP 主要 是 用 来 进 一 
步 消除 清音 语音 信号 中 的 周期 元 余 。 简 单 来 讲 ，STP 能 够 提取 短 时 语音 频谱 中 的 共振 峰 结构 ， 而 
LTP 能 够 恢复 表示 语音 音节 的 语音 信号 中 的 长 期 关联 。 

因此 我 们 通常 使 用 两 个 操作 步骤 ， 首 先是 STP， 然 后 是 LTP。 因 为 始终 假设 开始 的 误差 值 为 
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0， 然 后 开始 处 理 一 个 语音 分 量 (如 果 我 们 使 用 闭 循 环 ， 那 么 首先 执行 STP)。 接 着 使 用 LIP 来 处 
理 整 个 语音 帧 ， 或 者 相当 于 1/4 帧 的 子 语音 帧 。 图 13-6 显示 了 这 两 个 步骤 。 


原始 语音 sin) 





13-6 ”使 用 自 适应 随机 码 本 的 CELP 分 析 模型 


LTP 通常 实现 为 自 适应 码 本 查找 。 自 适应 码 本 中 的 码 字 是 一 个 移 位 语音 残 差 段 ， 通 过 一 个 对 
应 于 当前 语音 帧 或 当前 子 帧 的 延 时 值 t 来 标记 它 。 其 方法 是 在 波形 码 本 中 寻找 能 和 当前 的 语音 帧 匹 
配 的 码 字 。 一 般 使 用 正规 化 的 语音 子 帧 在 码 本 中 寻找 ， 所 以 当 语音 段 能 够 匹配 的 时 候 ， 我 们 也 获 
得 了 一 个 变换 值 〈 增 益 )。 和 码 字 相 对 应 的 增益 值 标记 成 go。 

有 两 种 码 字 检 索 方法 ， 开 环 和 闭环 。 开 环 自 适应 码 字 查找 试图 使 长 程 预测 误差 最 小 ， 但 不 能 
使 感知 上 的 重建 语音 误差 最 小 。 


E(t) = Ste — gos(n—T)/ (13.14) 
我 们 把 go 的 偏 导 数 设 置 为 0， 即 35E(r)/19go = 0 ， 我 们 能 够 得 到 
rm 
80 = jae (13.15) 
因此 ， 最 小 的 求 和 误差 是 : 
Ena (0) = Ý s?n- Gos oF (13.16) 


n=0 Las 2(n-7) 
需要 注意 的 是 ， 采 样 s(n 一 7t) 可 能 在 前 一 语音 帧 中 。 
现在 ， 为 了 获得 自 适应 码 本 的 索引 zr， 我 们 可 以 在 一 个 音节 确定 的 一 小 段 范围 进 行 搜索 。 
更 多 的 时 候 ，CELP 编码 器 使 用 闭环 搜索 。 与 仅仅 考虑 平方 和 不 同 ， 通 过 自 适 应 的 码 本 查找 ， 
语音 重 构 时 所 感觉 到 的 误差 最 小 。 所 以 在 闭环 自 适应 码 本 查找 中 ， 在 自 适应 码 本 中 查找 中 的 最 佳 
选择 是 使 局 部 重 构 语音 失真 最 小 的 码 字 。 参 数 的 选取 是 通过 求 源 和 重建 语音 之 间 的 差 值 度量 ( 通 
常 是 均 方 ) 最 小 化 得 到 的 。 这 意味 着 我 们 在 分 析 语音 段 的 同时 也 在 做 语音 的 合成 ， 所 以 这 种 方法 
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也 称 为 合成 分 析 法 (Analysis-By-Synthesis，A-B-S)。 

经 过 基于 LPC 分 析 的 STP 变换 和 基于 自 适应 码 本 查找 的 LTP 变换 后 ， 我 们 得 到 的 残 差 信 号 
有 点 类 似 于 白 噪声 ， 通 过 在 一 个 码 本 中 匹配 的 码 字 来 编码 ， 各 个 码 字 出 现 的 概率 是 随机 的 《可 以 
是 完全 任意 的 ， 或 者 是 遵循 一 定 的 概率 分 布 )。 这 种 对 于 自 适 应 码 字 和 随机 码 字 的 序列 化 的 优化 
之 所 以 被 采用 ， 是 因为 相关 的 优化 自 适应 的 随机 分 布 的 码 字 太 复杂 ， 不 可 能 满足 实时 的 要 求 。 

解码 就 是 上 面 所 描述 过 程 的 逆 过 程 ， 把 两 种 激励 机 制 的 贡献 结合 在 一 起 进行 工作 。 

1. DOD 4.8 KBPS CELP (FS1016 ) * 

DOD 4.8 kbps CELP[4] 是 被 美国 联邦 标准 委员 会 采用 的 早期 的 CELP 算法 ， 它 被 当 作 是 对 2.4 
kbps LPC-10e (FS1015) 声音 编码 器 的 升级 。 这 种 声音 编码 器 现在 是 测试 其 他 低 码 率 声 音 编码 器 
的 基准 。FS1016 的 采样 率 为 8kHz， 每 帧 有 30 毫秒 。 而 且 每 帧 被 进一步 划分 为 7.5 毫秒 的 子 帧 。 
在 FS1016 中 ，STP 基于 10 阶 的 开 环 LPC 分 析 。 

为 了 提高 编码 效率 ， 使 用 一 个 复杂 的 变换 编码 。 然 后 使 用 变换 系数 来 进行 量化 和 压缩 。 

首先 ， 人 们 一 般 使 用 z 变换 。 这 里 z 是 一 个 复数 ， 代 表 一 种 复 “ 频 率 ”。 如 果 z= el ， 那 
么 离散 z 变换 退化 成 离散 全 里 时 变换 。z 变换 使 得 傅 里 叶 变 换 看 起 来 像 是 多 项 式 。 我 们 可 以 把 预 
测 方程 中 的 误差 写成 ; 


e(n) = s(n)-¥ a;s(n—i) (13.17) 


i=l 


因为 在 z 域 ， 有 
E(z) = A(z)S(z) (13.18) 


其 中 E(z) 是 误差 的 Z BER, S(z) 是 信号 的 变换 。 4(z) 是 乙 域 的 传递 函数 ， 等 价 于 
A(z) = 1S az" (13.19) 
i=] 


这 里 的 系数 a AX 13.7 中 的 系数 w 相 同 。 我 们 重 构 语 音 时 根据 下 式 完 成 ， 
S(z) = E(z)/ A(z) (13.20) 
因此 ， 一 般 A(z) 一 般 都 写成 1/ A(z) 。 

使 用 乙 变换 的 主要 原因 是 想 把 LP 系数 变换 成 线 谱 对 (LSP) 系数 。 在 LSP 空间 中 ， 量 化 操作 
有 一 些 比较 好 的 性 质 。LSP 表示 法 现在 已 经 成 为 标准 ， 并 且 应 用 到 最 近 的 几乎 所 有 基于 LPC 的 语 
音 编码 器 中 ， 例 如 G.723.1、G.729 以 及 MELP。 为 了 获得 LSP 系数 ， 我 们 构建 两 个 多 项 式 

P(z) = A(z) +z PP AZ") 

Q(z) = A(z)— 2 PP A(z) 
Ht p 是 LPC 分 析 中 的 阶 数 ， 4(z) 是 LP 滤波 器 的 转换 函数 ，z 是 转换 域 的 变量 。Z 变换 和 健 里 
叶 变换 非常 相似 ， 只 不 过 它 使 用 的 是 复 “频率 ” 

上 面 两 个 多 项 式 的 根 分 布 在 z 平面 的 单位 圆 附近 ， 而 且 关于 x 轴 对 称 。 我 们 把 P(z) Q(z) 分 
布 在 x 轴 上 方 的 根 的 相位 角 记 成 9 <0 <...< O52 RO < gs <...< Opn, Kp EEK. BAA 
Æ 【cos(9),cos(pi),cos(9:),cos(pz),…,cos(6。12),cos(p，/12)} 就 是 LSP 系数 向 量 。 向 量 
{01,91,02,92,…,8p12,9p12} 通常 被 称 作 线 谱 频 率 (Line Spectrum Frequency) 或 者 LSF。 因 为 
A(z) =[P(z)+ Q(z)]/2 ， 我 们 能 够 在 解码 端 根 据 LSP 或 者 LSP 系数 重 构 LP AR. 

FS1016 中 的 自 适应 码 本 查询 是 采用 基于 感受 误差 的 闭环 查找 ， 和 仅仅 考 虚 均 方差 不 同 ， 这 里 


(13.21) 
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的 误差 考虑 了 人 的 感受 能 力 。 根 据 Z 变换 ， 可 以 发 现下 列 乘法 器 能 够 发 挥 很 好 的 作用 ， 


A(z) 1-> aie" 


W(z)= = TS 
© Az/Y) 1-5 ayz 


0<y<1 (13.22) 
其 中 参数 y 是 常数 。 

自 适 应 码 本 中 含有 256 个 码 字 ， 其 中 128 个 是 整数 时 延 ，128 个 是 非 整 数 时 延 〈 带 有 1/2 个 
采样 值 步 长 ， 以 提供 更 好 的 分 辨 率 )。 整 数 时 延 的 范围 是 20~147。 为 了 降低 查找 复杂 度 ， 偶 子 帧 
在 和 前 一 个 奇 子 帧 相隔 1 个 步 长 的 范围 内 查找 。 差 分 值 使 用 6 位 来 编码 。 增 益 使 用 非 均 匀 编 码 ， 
可 能 使 用 1、2 或 者 5 位 。 

对 一 帧 中 的 4 个 子 帧 都 使 用 随机 码 本 (Stochastic Codebook) 检索 。 把 一 个 单位 方差 高 斯 分 
布 随 机 序列 的 立 值 限制 在 绝对 值 1.2 内 ,然后 把 序列 中 的 元 素 量 化 为 -1,0, 1, 这 样 就 生成 了 FS1016 
中 的 随机 码 本 。 随 机 码 本 中 有 512 个 码 字 。 码 字 之 间 是 互相 重合 的 ， 每 一 个 码 字 比 前 一 个 码 字 偏 
移 2。 这 种 随机 设计 称 为 代数 码 本 。 它 有 多 种 变 体 ， 广 泛 用 于 最 近 的 CELP 编码 器 中 。 

把 激励 向 量 记 成 vw? ， 我 们 在 第 一 步 获得 周期 分 量 v@ 。vom 是 第 二 步 随 机 变量 查找 的 结果 。 
在 闭环 查找 中 ， 重 构 语 音 可 以 写成 

$= $o +(u+v®)H (13.23) 


其 中 第 一 步 中 u 为 0， 在 第 二 步 中 设置 v 。i 是 LPC 重 构 滤 波 器 的 零 响 应 。 和 矩阵 H 是 简化 的 
LPC 重 构 滤波 器 单位 脉冲 响应 矩阵 。 


ho h h hia ' 
0 ho h hy-2 
H=|0 0 


ho + hrs (13.24) 
0 0 0 0 h 
其 中 世 是 子 帧 的 长 度 〈 在 这 里 代表 了 一 个 卷 积 )。 类 似 地 ， 定 义 W 为 感应 权重 滤波 器 的 单位 响应 
和 矩阵， 那么 重 构 语音 的 感应 权重 误差 是 
e=(s—5)W = e-v? HW (13.25) 

其 中 eo =(s-50)W -uHW 。 码 本 搜索 过 程 是 要 在 码 本 中 找到 一 个 码 字 y 以 及 对 应 的 ao ， 使 得 
v =aoye ， 并 且 eer7 取 最 小 值 。 为 了 使 问题 易于 处 理 ， 顺 序 检索 自 适 应 码 本 和 随机 码 本 。 我 们 
用 a =Ca0O] 代 表 量 化 后 的 值 ， 这 样 自 适应 码 本 或 随机 码 本 中 码 字 检索 的 判断 标准 是 使 得 对 所 
HR yO, ed” 取得 最 小 值 。 其 中 yO EATA., e. yË KAŽ 

CELP 的 解码 器 完成 上 述 过 程 的 道 过 程 。 因 为 向 量 量化 的 复杂 性 是 非 对称 的 ， 解 码 端的 复杂 


性 要 低 好 多 。 

2. G.723.1° 

G723.1[5] 是 ITU 颁布 的 标准 ， 主 要 目的 是 为 了 实现 多 媒体 通信 。 它 能 够 和 H.324 协议 结合 ， 
从 而 在 视频 会 议 系统 中 实现 音频 编码 。G.723.1 是 一 个 双 数 据 率 的 CELP 类 型 的 语音 编码 器 , 它 可 
以 数据 率 5.3kbps 和 6.3kbps 下 工作 。 

G723.1 中 使 用 很 多 和 FS1016 类 似 的 技术 ， 我 们 将 在 最 后 一 节 详细 讨论 。 输 入 的 语音 也 是 
8kHz, UA 16 位 的 线性 LPC 格式 采样 。 每 帧 是 30 毫秒 ， 也 被 划分 成 四 个 相同 大 小 的 子 帧 。 每 个 
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子 帧 中 采用 10 阶 的 LPC 系数 ,LP 系数 进一步 转换 成 LSP 向 量 ,通过 预测 划分 VQ 算法 进行 量化 。 
LP 系数 也 用 来 生成 感应 权重 滤波 器 。 

G.723.1 首先 使 用 开 环 音节 划分 器 〈estimator) 来 进行 一 次 粗粮 的 音节 划分 。 每 个 音节 的 长 度 
为 两 个 子 帧 。 在 每 个 子音 节 中 都 进行 闭环 音节 查找 ， 方 法 是 在 开 环 音节 范围 中 寻找 所 要 的 数据 。 
在 经 过 LP 滤波 并 且 通 过 LIP 消除 语音 中 的 谐音 成 分 后 ， 如 果 是 5.3kbps 的 编码 器 ， 那 么 通过 
MP-MLQ (Multipulse Maximum Likelihood Quantization) 对 随机 残 差 进行 量化 ， 如 果 是 6.3kbps 的 
编码 器 ， 那 么 通过 ACELP (Algebraic Code Excited Linear Prediction) 来 对 随机 残 差 进行 量化 ， 
这 种 方法 能 获得 更 好 的 语音 质量 。 这 两 种 量化 方法 可 以 在 不 同 的 长 度 为 30 毫秒 的 语音 帧 之 间 
切换 。 

在 MP-MLQ 中 ， 随 机 分 量 的 贡献 体现 为 一 串 脉冲 : 


vm= 立 860-m) (13.26) 


i=l 


其 中 M 是 脉冲 的 数目 ，g; 是 脉冲 在 位 置 m; 处 的 增益 。 闭 环 查找 要 使 得 下 式 取 得 最 小 值 : 


M 
e(n)=r(n)- > gih(n—m;) (13.27) 


i=l 
其 中 r(n) 是 感应 估计 后 消除 了 零 响 应 分 量 和 周期 分 量 后 余下 的 语音 成 分 。 使 用 在 上 一 节 中 类 似 的 
方法 ， 我 们 可 以 逐步 优化 每 一 个 脉冲 的 增益 和 位 置 。 也 就 是 说 ， 我 们 首先 假设 只 有 一 个 脉冲 ， 并 
且 找 到 最 佳 的 位 置 和 增益 。 消除 了 这 个 脉冲 的 影响 后 , 我 们 可 以 用 同样 的 方法 来 优化 下 一 个 脉冲 。 
这 个 操作 可 以 递归 地 执行 ， 直 到 我 们 优化 了 所 有 的 M 个 脉冲 为 止 。 
ACELP 中 随机 码 本 的 结构 和 FS1016 中 码 本 的 结构 不 同 。 下 表 所 示 的 就 是 一 个 ACELP 激励 
码 本 。 
符号 位 置 

+1 0, 8, 16, 24, 32, 40, 48，56 

+1 2,10, 18, 26, 34, 42, 50, 58 

+1 4,12, 20, 28, 36, 44, 52, (60) 

+1 6,14, 22, 30, 38, 46, 54, (62) 


一 共有 4 个 脉冲 , 每 个 脉冲 可 以 有 8 个 位 置 , 每 个 位 置 用 3 位 进行 编码 。 脉 冲 的 符号 占 1 位 ， 
另 一 个 位 用 于 把 所 有 可 能 位 置 平移 ， 使 之 为 奇数 。 这 样 ， 码 字 的 索引 需要 17 位 。 因 为 代数 码 本 
的 特殊 结构 ， 有 一 种 高 效 的 码 字 查找 算法 。 

除了 上 面 讨论 的 CELP 编码 外 ， 还 有 一 些 其 他 的 CELP 类 的 编 解 码 方法 ， 它 们 主要 用 于 无 线 通 
信 系 统 。 这些 编 码 器 的 基本 原理 非常 类 似 , 只 是 在 参数 分 析 以 及 码 本 结构 的 实现 细节 上 有 一 些 不 同 。 

相关 的 例子 有 数据 率 为 12.2kbps 的 GSM EFR (Enhanced Full Rate) 代数 CELP 编 解 码 器 [6]， 
以 及 专门 为 北美 的 数字 电话 网 IS-136 TOMA 系统 设计 的 JS-641EFR[7]。G.728[8] 也 是 一 种 低 延 时 
的 CELP 语音 编码 器 。G.729[9] 是 基于 ITU 标准 的 CELP， 目 标 是 收费 质量 的 语音 通信 。 

G.729 是 一 个 CS-ACELP (Conjugate-Structure Algebraic-Code-Excited-Linear-Prediction) 编 解 
码 标准 。G.729 的 诸 音 分 析 帧 的 长 度 为 10 毫秒 ， 所 以 比 使 用 30 毫秒 语音 帧 的 G.723.1 延 时 小 。 
G.729 还 设置 了 一 些 保护 措施 来 处 理应 用 (例如 VoIP) 中 的 丢 包 问题 。 


“13.3.6 ”混合 激励 声音 合成 器 
混合 激励 声音 合成 器 是 另外 一 类 语音 编码 标准 。 它 们 和 CELP 不 同 ， 在 CELP 中 ， 激 励 体 现 


(13.28) 
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为 自 适应 码 字 和 随机 码 字 。 与 此 相反 ， 混 合 激励 编码 器 使 用 基于 模型 的 方法 引进 了 多 模型 激励 的 

1. MBE 

多 频带 激励 (Multi-Band Excitation, MBE) 声 音 合成 器 是 由 MIT 的 林肯 实验 室 开发 的 .4.1Skbps 
的 IMBE 编 解码 器 [11] 是 IMMSAT 的 标准 。MBE 是 一 种 逐 块 编 解码 标准 ， 用 长 度 为 20~30 毫秒 
的 语音 帧 作 分 析 单 元 。 在 MBE 解码 器 的 分 析 阶 段 ， 首 先 对 当前 帧 中 加 窗 语音 应 用 频谱 分 析 ， 如 
一 个 FFT 变换 。 短 时 语音 频谱 被 进一步 划分 成 更 小 的 频段 。 带 宽 通 常 是 基 频 (等 于 音节 的 倒数 ) 
的 整数 倍 ， 每 个 频段 都 被 标记 为 “浊音 ”或 者 “清音 ”。 

MBE 参数 编码 器 因此 包括 谱 包 络 、 音 调 、 不 同 频带 的 浊音 /清音 (UNV) 判断 。 基 于 不 同 码 率 
的 要 求 ， 谱 的 相位 可 以 被 参数 化 或 被 丢弃 。 在 语音 解码 的 过 程 中 ， 浊 音频 带 和 清音 频带 由 不 同 的 
方法 合成 ， 生 成 最 后 的 输出 。 

在 参数 估计 阶段 ，MBE 使 用 合成 分 析 技 术 。 一 些 参数 ， 例 如 基 频 、 频 谱 包 络 ， 以 及 子 带 U/V 
决策 都 是 通过 闭环 查找 得 到 的 。 闭 环 优化 的 评价 原则 是 使 考虑 感受 权重 的 重 构 语 音 误 差 最 小 。 重 
构 语 音 误 差 在 频 域 的 表达 式 是 : 


E == | *G@)15,(@)-S,(@) ldo (13.29) 
2m? -7 


其 中 Sw) 是 原始 语音 的 短 时 频谱 ，Sw(w) 是 重 构 语 音 的 短 时 频谱 ， Gow 是 感应 权重 滤波 器 的 
频谱 。 

和 CELP 中 的 闭环 查找 类 似 ， 使 用 一 个 序列 化 的 优化 方法 可 以 使 问题 变 得 简单 。 首 先 假设 所 
有 频段 都 是 清音 的 ， 然 后 计算 频谱 的 包 络 以 及 基 频 。 根 据 所 有 的 频谱 的 都 是 清音 的 假设 来 重新 计 
算 频 带 误差 ， 得 到 公式 


M 
é= 之 [元 J Ë G@)154(@)- An Ewr()? do) (13.30) 


其 中 M 是 在 [0,7] 中 的 一 个 频带 号 ， 4。 是 频带 m 的 频谱 包 络 ，E,,(wm) 是 短 时 窗口 频谱 ， 
oo = (=) » Bn = (m+ Do 我 们 设 08/04 ,= 0， 则 有 


| Pr GS (0E; (@)d@ 
s (13.31) 
J. G(@)| Ey, (0) Ê do 


在 频带 间隔 中 查找 最 小 ¥ 值 时 ， 同 时 也 可 以 获得 基 频 。 根 据 求 得 的 频谱 包 络 ， 使 用 一 个 自 适 
应 的 阐 值 机 制 来 测试 每 个 频段 的 匹配 程度 。 如 果 一 个 频段 匹配 程度 很 好 ， 我 们 就 称 这 个 频段 是 浊 
音 的 。 否 则 我 们 就 称 这 个 频段 是 清音 的 ， 同 时 测试 清音 频段 的 包 络 。 


fe G(w)|S,,(@)|do 
Am 二 一 一 一 一 一 一 (13.32) 
| "G(@)dw 
解码 器 基于 浊音 和 清音 的 频段 ， 使 用 不 同 的 方法 合成 浊音 和 清音 语音 。 然 后 把 两 种 重 构 分 量 
组 合 在 一 起 ， 生 成 合成 语音 。 最 后 一 步 是 处 理 不 同 语音 帧 之 间 的 迭 加 部 分 ， 然 后 得 到 最 终 输出 。 
2. MELP 
MELP (Multiband Excitation Linear Predictive， 多 频带 激励 线性 预测 ) 语音 编 解码 是 新 颁布 的 
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美国 联邦 标准 ， 用 来 取代 旧 的 LPC-10 (FS1015) 标准 ， 它 主要 应 用 于 低 数 据 率 的 安全 通信 。 当 
数据 率 是 2.4kbps 时 ，MELP[12] 的 声音 质量 可 以 与 4.8kbps 的 DOD-CELP (FS1016) 媲美 ， 同 时 
MELP 在 噪声 环境 下 有 很 好 的 健壮 性 。 

MELP 也 是 基于 LPC 分 析 的 。 根 据 LPC-10 中 采用 的 硬性 决策 的 浊音 或 者 清音 模型 的 不 同 ， 
MELP 使 用 多 频段 软 决 定 模型 来 处 理 激励 信号 .LP 残 差 是 带 通 的 , 对 每 个 频段 计算 一 个 语音 强度 。 
把 激励 通过 LPC 合成 滤波 器 传递 就 可 以 获得 重 构 语音 。 

和 MBE 不 同 的 是 ,MELP 把 激励 划分 成 五 个 固定 频段 ,它们 是 0~500、500~1 000、1 000~2 000、 
2 000~3 000 以 及 3 000~4 000Hz。 使 用 语音 信号 的 正则 相关 函数 计算 语音 信号 和 平滑 的 非 直流 频 
段 的 校正 信号 来 计算 每 个 频带 上 的 语音 程度 参数 .假设 用 si (n) 来 代表 频段 上 上 的 语音 信号 , wu (n) 
代表 s(n) 的 平滑 的 无 直流 分 量 的 信和 号。 相关 函 数 可 以 写成 


YN, x(Dx(n+ 癌 
DADE LOMPE Py? 
其 中 P 是 当前 语音 帧 中 的 音节 ，N 是 帧 长 。 那 么 频段 k 的 语音 强度 可 以 定义 成 max(Re(P)， 
Ru (P)) 。 

在 清音 语音 段 中 ，MELP 使 用 抖动 有 声 状态 来 模拟 清音 语音 段 的 边缘 ， 从 而 进一步 取代 了 传 
统 的 LPC-10 语音 编码 器 中 使 用 的 方法 。 拌 动 状态 使 用 一 个 非 周 期 性 的 标志 来 标记 。 如 果 这 个 非 


周期 性 的 标志 出 现在 分 析 的 末尾 ， 那 么 接收 器 在 短 时 脉冲 激励 中 增加 一 个 随机 移 位 分 量 。 这 种 移 
位 最 大 可 以 达到 P/4 。 拌 动 状态 由 全 波峰 值 矫 正 的 LP RÆ en) 决定 。 


Š LG e(n)? I? 
TE e(n)i 


如 果 峰 值 高 于 一 些 阐 值 ， 那 么 就 认为 语音 帧 是 拌 动 的 。 

为 了 更 好 地 重 构 语音 信号 的 短 时 频谱 ， 和 在 LPC-10 语音 编码 器 中 一 样 ， 我 们 假设 残 差 信和 号 
的 频谱 不 是 均匀 分 布 的 。 正 则 化 LP 残 差 信号 后 ，MELP 保留 了 基 频 为 min 0, PID) 的 谐 波 所 
对 应 的 幅 值 。 更 高 频 的 谐 波 被 过 滤 掉 。 

10-d 幅 值 向 量 利用 8 位 的 向 量 来 量化 , 使 用 感应 权重 距离 作为 评价 标准 。 和 最 流行 的 LPC E 
化 方案 类 似 ，MELP 也 是 首先 将 LPC 参数 转变 成 LSF， 然 后 使 用 四 步 向 量 量化 方案 。 四 个 步骤 中 
使 用 的 位 数 分 别 是 7、6、6、6。 除 了 使 用 和 LPC-10 中 类 似 的 整数 音节 估计 外 ，MELP 还 使 用 了 
一 个 分 数 音节 精 化 过 程 ， 来 提高 音节 估计 的 准确 度 。 

在 音频 的 重 构 过 程 中 ，MELP 没有 使 用 短 时 脉冲 来 模拟 短 时 激励 信号 ， 它 使 用 离散 的 波形 。 
为 了 使 用 离散 的 脉冲 ， 在 脉冲 上 使 用 了 一 个 有 限 的 脉冲 响应 (Finite Impulse Response, FIR) 滤波 
器 。MELP 也 使 用 感应 权重 滤波 器 对 重 构 语音 信号 进行 后 滤波 ， 这 样 可 以 降低 量化 噪声 ， 提 高 语 
音质 量 。 


13.4 ”进一步 探索 


在 Spania 的 一 篇 很 出 色 的 文章 [13] 中 有 关于 语音 编码 详细 介绍 。Sun Microsystem 公布 了 它 对 
G.711、G.721 和 G.723 标准 的 C 代码 实现 。 代 码 可 以 在 本 书 网 站 的 第 13 章 的 Further Exploration 
中 找到 ， 同 时 可 以 找到 样本 音频 文件 。 因 为 代码 是 处 理 2 字 节 的 原始 数据 的 ， 所 以 链接 中 也 给 出 
了 简单 的 MATLAB 程序 来 读 写 WAV 以 及 原始 数据 。 


R,(P)= (13.33) 


peakiness = (13.34) 
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对 于 音频 来 说 ， 各 种 诉求 的 最 终 判 决 是 由 ITU 标准 来 完成 的 。 这 些 组 织 提出 的 标准 使 得 我 们 


的 Modem 能 够 和 其 他 人 交流 ， 促 进 移动 通信 的 开发 等 。 负 责 制定 和 推广 标准 的 ITU 可 以 直接 通 
过 Web 访问 。 


关于 语音 编码 的 更 多 的 信息 可 以 从 语音 FAQ 文件 链接 中 找到 ， 其 中 还 包含 关于 LPC 以 及 


CELP 的 实现 代码 。 
13.5 练习 


1. 


2. 


U 


我 们 在 13.3.1 节 中 讨论 了 相位 不 敏感 性 ， 请 根据 复合 信号 中 单个 频率 分 量 解释 术语 “相位 ” 
的 含义 。 

通过 C 或 者 MATLAB 来 输入 一 个 语音 段 ， 并 证 明 共振 峰 的 存在 一 一 一 般 任 何 语音 段 都 有 一 部 
分 重要 的 频率 。 同 时 证 明 随 着 我 们 检测 的 语音 的 时 间 长 度 的 变化 ， 共 振 峰 也 会 随 着 改变 。 

要 编写 一 个 频率 分 析 器 ， 最 简单 的 做 法 是 使 用 8.5 节 中 DCT 编码 的 思想 。 一 维 空间 中 的 DCT 
变换 可 以 写作 ， 


+ Dun 


F(u)= iws cos———— f (i) . (13.35) 


HPiu=0,1,....N-1, HP CU ERS, CHRARE: 


u=0 
1 其 他 


如 果 我 们 使 用 图 6-15 中 的 语音 采样 ， 对 开始 〈 或 者 最 后 的 ) 40 毫秒 语音 ( 即 32 个 采样 ) 做 
一 维 DCT 变换 ， 我 们 就 获得 图 13-5 中 的 绝对 频率 分 量 。 


C(u) = (13.36) 





.编写 一 段 代码 来 读 入 一 个 WAV 文件 ， 你 需要 使 用 以 下 一 些 定义 : 一 个 WAV 文件 以 4 字 节 的 


文件 头 开始 ， 数 据 类 型 是 无 符号 字 节 。 一 些 重要 的 参数 信息 编码 如 下 : 
字 节 [22~23] 通道 数目 
字 节 [24~27] 采样 率 
字 节 [34~35] 采样 位 数 
字 节 [40~43] 数据 长 度 


.编写 一 段 程序 为 一 段 音频 文件 (WAV 格式 ) 添加 渐 强 以 及 减弱 的 效果 。 渐 变 效果 的 细节 如 下 : 


算法 中 假设 有 一 段 线性 包 络 ， 数 据 的 最 初 20% 采 样 是 渐 强 效果 的 作用 范围 ， 最 后 20% 的 采样 
是 渐 弱 效果 的 作用 范围 。 

进一步 的 ， 你 可 以 让 你 的 代码 不 仅 处 理 单 声 道 WAV 文件 ， 还 能 够 处 理 立 体 声 WAV 文件 。 如 
果 需 要 的 话 ， 可 以 对 输入 文件 的 大 小 做 一 个 限制 ， 最 大 尺寸 为 16MB。 


， 在 本 书 中 ， 我 们 研究 ADPCM 中 的 自 适应 量化 机 制 ， 我 们 也 使 用 自 适 应 的 预测 机 制 。 让 我 们 


来 考察 一 个 只 有 一 步 的 预测 ， $n) = ws(e-D 。 写 出 应 该 怎样 在 开 环 方法 中 计算 参数 a。 计 算 
你 能 够 获得 的 SNR 增益 ， 并 且 和 基于 均匀 量化 的 直接 PCM 方法 作 比 较 。 


.线性 预测 分 析 能 够 检测 短 时 频谱 的 包 络 的 形状 。 已 知 10 个 LP 系数 a,.…,a1o ， 我 们 怎样 求 得 


共振 峰 的 位 置 以 及 带宽 ? 


.下载 并 且 实 现 一 个 CELP 编码 器 (参见 本 书 的 网 站 )。 用 你 自己 录制 的 声音 数据 测试 这 个 编码 器 。 


8， 在 G723.1 中 量化 LSP 向 量 时 ， 使 用 分 裂 向 量 量化 。 如 果 LSP 是 10 维 的 ， 我 们 可 以 把 这 个 向 


量 分 裂 成 3 个 子 向 量 ， 分 别 是 3 维 、3 维 以 及 4 维 。 然 后 对 每 个 子 向 量 分 别 使 用 向 量 量化 。 比 
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较 一 下 使 用 和 不 使 用 分 裂 向 量 量化 的 码 本 空间 的 复杂 性 。 计 算 使 用 了 分 裂 向 量 量化 后 码 本 查询 
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时 间 复 杂 度 的 提高 。 
9. 讨论 一 下 在 CELP 中 使 用 代数 码 本 的 优点 。 


10， 在 背景 噪声 很 强 的 情况 下 ，LPC-10 语音 编码 器 的 编码 质量 会 严重 恶化 ， 讨 论 一 下 为 什么 MELP 
在 同样 的 噪声 环境 下 能 够 获得 较 好 的 效果 。 


11. 给 出 一 个 基于 自 相 关 函 数 的 简单 的 估计 音节 的 时 域 方法 。 如 果 这 种 方法 仅仅 基于 语音 帧 ， 会 
遇 到 什么 问题 ? 如 果 我 们 有 3 个 语音 帧 ， 包 括 一 个 “过 去 帧 ”以 及 一 个 “将 来 帧 ” 我 们 可 以 
怎样 改进 估计 结果 ? l 

12. 在 接收 端 ， 语 音 一 般 是 使 用 两 个 语音 帧 参数 ， 而 不 是 一 个 语音 帧 参数 来 生成 ， 这 样 可 以 避免 
突变 。 给 出 两 种 能 够 获得 平滑 转换 的 方法 。 使 用 LPC 编 解码 来 说 明 你 的 想法 。 
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你 是 否 有 过 这 样 的 经 历 ， 在 参加 一 个 舞会 的 时 候 ， 发 现 过 了 一 段 时 间 以 后 就 听 不 到 太 多 声音 
T? 你 正在 经 历 一 个 典型 的 时 间 遮 掩 ! 

你 是 否 注 意 到 ， 一 个 在 舞会 负责 控制 音响 的 人 ， 基 本 上 听 不 到 高 频 的 声音 ?” 因为 很 多 技师 都 
有 这 样 的 听觉 损伤 ， 所 以 可 以 通过 提高 高 频 声 音 的 音量 来 让 他 们 能 够 听 到 这 些 高 频 声 音 。 但 是 如 
果 你 的 听觉 没有 这 样 的 损伤 ， 那 么 在 听 到 这 种 音乐 的 时 候 会 感觉 太 过 刺耳 。 

另外 ， 如 果 一 个 音色 的 声音 非常 大 ， 那 么 你 也 会 注意 到 很 难听 到 这 个 频谱 附近 的 其 他 音色 一 一 
乐队 主唱 的 声音 会 被 主 吉 他 手 的 声音 所 淹没 。 如 果 你 已 经 注意 到 这 种 现象 ， 那 么 你 已 经 体会 过 了 
频率 遮掩 (frequency masking)! 

MPEG 声音 利用 了 这 类 感知 现象 , 去 掉 了 这 些 听 到 不 到 的 声音 。 利 用 人 体 的 听觉 敏感 度 曲线 ， 
MPEG 音频 编码 器 决定 在 何 时 , 以 何 种 程度 使 用 时 间 遮 掩 和 频率 遮掩 让 音乐 的 某 些 部 分 不 被 听 到 。 
然后 ， 通 过 控制 量化 过 程 以 使 得 这 些 部 分 不 影响 输出 的 效果 。 

在 前 面 几 章 中 ,我 们 已 经 集中 关注 了 电话 上 的 应 用 一 一 通常 ，LPC 线性 预测 编码 ) 和 CELP 
〈 码 激励 线性 预测 ) 被 调整 到 语音 参数 。 不 同 的 是 ， 在 本 章 中 ， 我 们 考虑 的 压缩 方法 适用 于 一 般 
的 声音 ， 比 如 音乐 或 者 是 广播 数字 电视 。 这 种 方法 不 使 用 语音 建 模 的 方法 ， 而 是 使 用 一 种 波形 
(waveform) 编码 的 方法 ， 这 种 方法 可 以 使 解压 缩 后 的 幅 值 -时 间 波 形 和 输入 信号 尽 可 能 相似 。 

在 评价 可 能 的 音频 压缩 方式 的 声音 满意 程度 时 使 用 的 主要 技术 是 利用 一 种 心理 声学 听觉 的 
建 模 方式 。 这 种 编码 过 程 通常 称 为 认 知 编码 (perceptual coding). 

在 本 章 中 ， 我 们 会 看 到 这 些 因 索 是 如 何 影响 MPEG 音频 压缩 标准 ， 并 且 详 细 介 绍 以 下 主题 ; 

。 心理 声学 

。 MPEG-1 音频 压缩 

。 MPEG 音频 的 发 展 : MPEG-2、4、7 和 21 
14.1 ”心理 声学 简介 

前 面 提 到 过 ， 人 类 的 听觉 范围 是 从 20Hz 到 大 约 20kHz (对 于 那些 没有 去 过 舞厅 的 人 来 说 )。 
频率 更 高 的 声音 称 为 超声 波 〈ultrasonic)。 但 是 ， 人 类 声音 的 频率 范围 只 是 从 大 约 500Hz 到 4kHz。 
这 个 动态 范围 《人 类 能 够 听 到 的 最 大 声音 幅度 和 最 小 声音 幅度 之 比 ) 在 大 约 120dB 这 个 数量 级 上 。 

回想 一 人 下， 分贝 单 位 是 在 指数 轴 上 的 强度 之 比 。0dB 代表 人 类 听觉 的 阔 值 一 一 我 们 可 以 听见 
的 最 小 的 声音 ， 此 时 的 声音 频率 是 1kHz。 从 技术 上 说 ， 这 是 一 个 刚 能 听 到 的 声音 ， 强 度 为 每 平方 
X 10 瓦特 。 我 们 对 强度 感知 的 范围 则 是 不 可 思议 的 大 ， 使 人 耳 感 到 疼痛 的 声音 的 强度 大 约 是 
1Wattmew?， 所 以 两 者 之 闻 的 此 值 可 达到 107, 

听觉 范围 事实 上 是 和 频率 有 关 的 。 在 频率 为 2kHz 的 时 候 ， 耳 条 可 以 轻松 地 对 比 最 小 可 感知 
声音 频率 大 约 强 96dB 的 声音 做 出 反应 ， 换 句 话 说 是 对 2 比率 的 激励 做 出 反应 。 表 6-1 列 出 了 一 
些 常见 声音 对 应 的 分 贝 数 。 


14.1.1 等 响 度 关系 


假设 我 们 产生 两 个 纯音 色 (正弦 声音 波 )， 它 们 有 相同 的 幅 值 ， 但 频率 不 同 。 通 常 ， 一 个 声 
音 会 比 另 外 一 个 声音 听 起 来 更 响 。 这 是 因为 耳 条 听 低 频 或 者 高 频 的 时 候 不 能 够 像 听 到 中 频率 声音 
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那样 好 。 特 别 是 ， 在 通常 的 音量 下 ， 耳 人 条 对 1kHz 到 5kHz 的 频率 最 敏感 。 

Fletcher-Munson 曲线 

Fletcher-Munson 等 响 度 曲线 显示 了 一 个 给 定 的 音量 〈 声 压 值 ， 以 dB 为 单位 ) 和 感知 的 响 度 
(以 方 为 单位 ) 之 间 的 关系 ， 它 是 一 个 关于 频率 的 函数 。 图 14-1 显示 了 耳 杀 对 等 响 度 的 感知 特点 。 
横 坐 标 〈 显 示 在 半 指 数 图 中 ) 是 频率 ， 以 kHz 为 单位 。 纵 坐标 是 声 压 值 一 一 在 实验 中 产生 的 真实 
的 音色 响 度 。 这 条 曲线 显示 了 何 种 音色 响 度 能 够 被 人 类 所 接收 。 最 下 面 的 一 条 曲线 显示 何 种 模拟 
纯音 色 的 值 能 够 产生 感知 是 10dB 的 声音 。 


120 


等 响 度 响应 








响 度 级 别 (dB) 








10.0 


0.1 1.0 
频率 (kHz) 


图 14-1 Fletcher-Munson 的 人 耳 等 响 度 响应 曲线 (Robinson 和 Dadson 重新 测量 ) 


所 有 曲线 是 这 样 排列 的 ， 使 接收 到 的 声音 响 度 值 能 给 出 与 纯音 色 的 1kHz 的 响 度 等 级 相同 的 
响 度 。 因 此 ，1kHz 这 一 点 的 响 度 值 和 总 是 和 纵 轴 的 dB 值 相同 的 。 例 如 ， 最 下 面 的 一 条 曲线 就 是 
10 方 。 这 条 曲线 上 的 所 有 音色 的 响 度 和 10dB，1000Hz 的 音色 的 响 度 相 同 。 Robinson 和 Dadson[1] 
绘制 的 图 比 Fletcher 和 Munson[2] 原 来 的 图 更 加 准确 。 

等 响 度 曲 线 的 主要 思想 是 音色 是 以 某 个 频率 和 可 度量 的 响 度 级 产生 ， 然 后 人 类 以 一 定 比 率 接 
收 响 度 。 如 最 下 部 的 曲线 所 示 ， 所 有 在 20Hz 到 15kHz 之 间 的 纯音 色 都 以 在 纵 轴 给 出 的 一 个 音量 
值 产 生 ， 这 个 音色 将 以 10dB 的 响 度 级 感知 [1]。 第 二 条 曲线 显示 了 对 于 每 一 个 以 20dB 感知 的 纯 
音色 的 幅 值 ， 以 此 类 推 。 最 上 面 的 一 条 曲线 是 以 90dB 被 感知 的 。 

举例 来 说 , 在 5 000Hz 处 , 当 声 源 实 际 上 只 有 5dB 时 , 我 们 感知 到 的 响 度 具 有 10 方 。 注 意 , 在 4kHz 
处 ， 当 激励 实际 上 只 有 大 约 2dB 的 时 候 ， 我 们 感受 到 声音 有 10dB。 为 在 10kHz 处 感受 到 10dB 的 效果 ， 
我 们 不 得 不 产生 一 个 20dB 的 激励 。 人 耳朵 在 2kHz 到 5kHz 之 间 的 敏感 度 比 6kHz 以 上 更 加 敏感 。 

在 最 低频 率 上 ， 如 果 声 源 强度 为 104B，1kHz 的 音色 也 会 在 10dB 发 声 ， 但 是 ， 若 频率 更 低 ， 
那么 100Hz 的 音色 必须 在 30dB 处 才能 发 声 ， 比 在 kHz 处 高 20dB! 所 以 我 们 对 于 较 低 的 频率 不 
敏感 。 产 生 这 种 现象 的 原因 是 我 们 的 耳 道 对 2.5~4kHz 的 频率 有 放大 作用 。 

注意 ， 当 整体 的 响 度 增加 时 ， 曲 线 会 变 得 平坦 。 如 果 声 音 足 够 响 的话 ， 我 们 对 于 几 百 赫 效 的 
低频 声音 的 敏感 程度 是 基本 上 相同 的 ， 而 且 我 们 对 于 低频 声音 的 感知 程度 要 好 于 高 音量 的 高 频 。 
因此 ， 在 舞厅 中 ， 声 音 大 的 音乐 听 起 来 比 安静 的 音乐 更 清楚 ， 因 为 我 们 实际 上 只 是 听 到 了 低频 的 
声音 ， 而 没有 听 到 高 频 的 声音 。(“ 响 度 ” 在 某 些 声音 系统 中 的 切换 只 是 提升 低频 和 高 频 。) 然而 ， 
当 声 音 超过 90dB 时 ， 人 们 会 感觉 到 不 舒服 。 通 常 ， 城 市 中 地 铁 运行 时 的 声音 大 约 是 100dB。 
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14.1.2 频率 遮掩 

一 种 音色 是 如 何 干扰 另外 一 种 音色 的 呢 ?” 一 种 频率 在 什么 程度 上 能 盖 过 另 一 种 频率 ?这 个 
问题 我 们 可 以 通过 遮掩 曲线 获得 答案 。 而 且 ， 遮 掩 回 答 了 在 能 够 听 到 真正 的 音乐 之 前 我 们 能 够 忍 
受 何 种 程度 的 噪声 的 问题 。 有 损 的 音频 数据 压缩 算法 〈 比 如 MPEG 声音 或 者 在 电影 制作 中 常用 的 
杜 比 数 字 (AC-3) 编码 ) 都 去 掉 了 某 些 被 遮掩 的 声音 ， 因 此 减少 了 总 的 信息 量 。 

关于 遮掩 ， 有 以 下 几 种 情况 比较 常见 : 

。 一 个 较 低 的 音色 可 以 有 效 的 遮掩 《〈 使 它 无 法 被 听 到 ) 另 一 个 较 高 的 音色 。 

。 反 之 则 不 然 。 一 个 较 高 的 音色 不 一 定 能 很 好 地 遮掩 一 个 较 低 的 音色 。 音 色 实 际 上 可 以 谈 掩 

较 低 频率 的 声音 ， 但 是 并 不 像 遮 掩 较 高 频率 的 音色 那样 有 效 。 

RRNA, CHB MRR. EREE RAM N 

。 因此， 如 果 两 种 音色 在 频率 上 相差 较 大 ， 就 几乎 不 会 有 遮掩 发 生 。 

1. HE RE 

图 14-2 ER SANTA RH BE. AREA —TA, 需要 产生 一 种 特定 频率 的 声音 ， 
比如 1kHz。 在 一 个 安静 的 房间 里 或 者 使 用 耳机 先 将 音量 降低 到 零 , 然后 逐渐 升 高 直到 声音 刚刚 能 
够 被 听 到 。 用 这 种 方法 可 以 为 所 有 能 够 听 到 的 频率 生成 对 应 的 数据 点 。 








dB 











10 10 10 
Hz 


图 14-2 AMPA HOT EE 


听觉 阔 值 曲线 上 的 点 表明 ， 如 果 一 种 声音 超过 图 中 所 示 的 dB 大 小 ， 比 如 超出 2dB 的 6kHz 
音调 ， 就 能 够 被 听 到 。 否 则 ， 我 们 不 能 听 到 它 。 调 高 6kHz 音调 音量 ， 使 它 等 于 或 者 超过 曲线 意 
味 着 我 们 能 够 区 分 这 种 声音 。 

关于 这 条 曲线 的 近似 公式 ， 如 下 [3] 所 示 : 


Threshold (f ) = 3.64(f 11000)08 -6.5e-0601100-33 4 19-3 ¢ /1000)4 (14.1) 


WERNE dB. AA dB 是 一 个 比值 ， 所 以 我 们 需要 确定 以 何 种 频率 作为 原点 〈0,0)。 在 式 
14.1 中 ， 这 个 频率 是 2 000Hz, B24 2kHz HY, Threshold()=0. 

2. ATE th 

我 们 通过 产生 一 种 高 音量 的 纯音 ， 比 如 1kHz 的 频率 ， 并 确定 这 种 音色 如 何 影响 我 们 听 到 临 
近 频 率 音 色 的 方法 ， 来 研究 频率 遮掩 。 为 了 完成 这 项 工作 ， 我 们 将 产生 一 个 1kHz 的 迹 掩 音色 ， 
并 把 它 固定 在 60dB， 然 后 提高 临近 音色 值 ， 比 如 1.1kHz， 直 到 它 能 够 被 听 到 。 图 14-3 PHBA 
显示 了 这 个 能 够 被 听 到 的 值 。 
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TE, RAER HREARAT- PERRE, A AREE., WREAK, AY 
就 会 改变 。 图 14-4 说 明了 这 一 点 ， 遮 掩 音色 的 频率 越 高 ， 它 所 影响 的 范围 越 广 。 

举例 来 说 , 假设 我 们 在 存在 一 个 4kHz 谈 掩 音色 的 时 候 产生 一 个 6kHz 的 音色 ,那么 性 掩 音色 
会 大 幅度 提升 阔 值 曲线 。 因 此 , 在 6kHz 的 临近 频率 上 , 我 们 现在 必须 增加 30dB 才能 把 它 和 6kHz 
的 音色 区 分 开 。 

实际 上 ， 如 果 一 个 信号 能 够 被 分 解 为 频率 ， 那 么 它 的 频率 将 会 被 部 分 迹 掩 ， 只 有 能 够 听 到 的 
部 分 将 会 被 用 来 设置 量化 噪声 阔 值 。 
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图 14-4 VERZE 3 种 不 同 频率 上 的 效果 





3， 临 界 频段 

由 于 当 有 其 他 声音 时 ， 人 类 听觉 系统 具有 在 大 约 一 个 临界 频段 内 能 更 好 地 分 解 声音 的 特性 ， 
因此 人 类 听力 范围 自然 地 分 为 多 个 临界 频段 。 听 觉 具 有 一 个 有 限 的 、 取 决 于 频率 的 分 解 。 由 [4] 
可 知 ,“ 在 一 个 复杂 的 音色 里 ， 临 界 带宽 与 两 部 分 的 最 小 频率 差异 相对 应 ， 这 个 差异 使 得 它们 仍 
然 可 以 被 独立 地 听 到 .…… 临 界 带宽 表示 人 年 分辨 同时 出 现 的 音色 或 者 部 分 的 能 力 。” 

在 低频 端 ， 临 界 频 段 小 于 100Hz， 但 在 高 频 时 ， 频 带 会 大 于 4kHz。 这 确实 是 另外 一 种 感知 不 
一 致 的 情况 。 

实验 表明 ， 当 遮掩 频率 低 于 500Hz 时 ,临界 频段 的 带宽 基本 保持 恒定 ， 其 宽度 大 约 为 100Hz。 
然而 ， 当 频率 大 于 500Hz 时 ， 临 界 频段 的 宽度 随 着 频率 的 提高 星 近 似 线性 的 增长 。 

一 般 来 说 ， 上 听力 的 音频 频率 范围 可 以 被 分 为 24 个 临界 频段 “编码 应 用 通常 使 用 25 个 临界 频 
带 )， 如 表 14-1 所 示 。 

虽然 一 般 对 于 临界 频段 是 如 此 定义 的 ， 但 是 我 们 的 听觉 器 官 实际 上 是 在 某 种 程度 上 调谐 到 一 
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个 确定 的 临界 频段 。 因 为 听觉 取决 于 内 耳 的 物理 结构 ， 所 以 对 于 这 种 结构 使 之 共鸣 效果 最 好 的 频 
率 是 很 重要 的 。 频 率 遮掩 是 耳 打 结构 在 谈 掩 频率 和 相 邻 频率 处 变 得 “饱和 ”的 结果 。 

因此 ， 耳 休 的 工作 原理 和 一 组 带 通 滤 波 器 的 工作 原理 相似 ， 每 个 带 通 滤波 器 只 允许 限定 范围 
的 频率 通过 而 阻截 其 他 波段 的 频率 。 证 明 上 述 观点 的 实验 是 基于 恒定 音量 声音 的 一 种 现象 ， 这 种 
现象 是 如 果 它 跨越 了 两 个 临界 频段 的 分 界 ， 那 么 将 会 比 它 完 成 包含 在 一 个 临界 频带 内 听 起 来 更 


响 。 因 此 ， 由 于 让 掩 的 作用 ， 人 耳 在 一 个 临界 频段 内 不 能 够 很 好 的 区 分 声音 。 
表 14-1 临界 频段 及 其 带宽 
wa mw 
T S E S S S 
TE D T E E O A E 
n 
0 To ns E 
s | 40 | 450 510 110 
6 510 570 630 120 
5 io 
20 08 0s E 
i 0 
: w 
s m 
: 2 
20 sm 1 
770 E 
22 8 500 9 500 1800 
T ET 国生 
x T 
4. Bark 单位 


因为 受 迹 掩 影响 的 频率 范围 随 着 频率 的 增高 而 增 宽 ， 所 以 定义 一 种 新 的 频率 单位 是 很 有 用 
的， 这 样 在 使 用 这 种 新 单位 表示 时 ， 每 一 条 遮掩 曲线 (上 面 图 14-4 的 一 部 分 ， 在 安静 立 值 之 上 ) 
拥有 相同 的 带宽 。 
定义 的 新 的 单位 称 为 Bark， 是 以 一 位 声音 科学 家 Heinrich Barkhausen (1881—1956) 而 命名 
的 。 一 个 Bark 单位 对 应 于 任何 遮掩 频率 [6,7] 的 一 个 临界 频段 的 宽度 。 图 14-5 显示 了 临界 频段 ， 
CHIR CORALS) EEH Bark 单位 表示 的 。 
频率 f 和 它 对 应 的 使 用 Bark 单位 表示 的 临界 频段 数值 b 之 间 的 转换 关系 如 下 : 
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临界 频段 值 (Bark) = H /100 f <500 (14.2) 


9+4logo(f /1000) f 2500 


80 


250 Hz 500 Hz 1 kHz 2 kHz 4kHz 8 kHz 








10 15 
临界 频段 数 (Bark) 


图 14-5 WER. H Bark 单位 表示 
使 用 这 种 新 的 频率 单位 度量 ， 当 f = 500Hz 时 ， 临 界 频 段 数值 b 等 于 5。 将 该 频率 倍 频 ， 即 
遮掩 频率 是 1kHz 时 ，Bark 值 提高 到 9。 另 一 个 度量 Bark 的 公式 如 下 : 


b =13.0arctan (0.76f)+3.5arctan (f? 156.25) (14,3) 
EF, f 的 单位 为 kHz, b 的 单位 为 Bark。 将 公式 倒 推 即 可 求 出 对 应 于 特定 的 Bark 值 b 的 频率 (以 
kHz 为 单位 ); 
f =[(exp(0.219xb) /352) +0.1]xb -0.032xexp[-0.15x (b -5)°] (14.4) 


形成 两 个 临界 频段 之 间 边 界 的 频率 ， 是 由 整数 Bark 值 给 出 的 。 对 于 给 定 的 中 心 频率 f， 临 界 
带宽 (df) 也 可 以 用 下 式 估计 [8]: 


df = 25+75x[1+1.4(f7)1° (14.5) 


其 中 /的 单位 为 kHz，4df 的 单位 为 Hz。 


设置 Bark 单位 的 目的 是 定义 一 种 更 均匀 一 致 的 频率 单位 , 使 得 每 个 临界 频段 的 宽度 使 用 Bark 
表示 时 都 大 致 相等 。 
14.1.3 WEER 
回想 一 下 ， 在 跳舞 之 后 我 们 需要 很 长 一 段 时 间 听 力 才能 够 恢复 正常 。 一 般 来 说 ， 任 何 大 的 音 
色 都 会 导致 内 耳 内 的 听觉 接收 器 很 小 的 像 头 发 一 样 的 结构 被 称 作 cilia) 变 饮 和， 它们 需要 一 段 
时 间 才 能 恢复 (很 多 感知 系统 也 会 有 这 样 的 时 间 延 缓 方式 -一 比如 ， 眼 睛 中 的 接收 器 拥有 类 似 的 
电容 效应 )。 
为 了 量化 这 种 行为 的 类 型 ， 我 们 可 以 使 用 另外 一 种 遮掩 实验 来 度量 听觉 的 时 间 敏 感性 。 假 设 
我 们 再 产生 一 个 遮掩 音色 和 一 个 临近 的 音色 ， 迹 掩 音色 的 频率 为 IkHz， 音 量 为 60dB， 临 近 音色 
是 1.1kHz， 音 量 为 40dB。 因 为 临近 的 测试 音色 被 遮掩 ， 所 以 不 能 够 听 到 它 。 但 是 当 遮 掩 音 色 被 
去 掉 时 ， 我 们 可 以 再 次 听 到 1.1kHz 的 音色 ,只 不 过 在 一 段 时 间 之 后 才能 听 到 。 实 验 在 关 掉 遮 掩 音 
色 后 ， 比 如 10 毫秒 之 后 ， 关 掉 测 试 音色 的 方法 进行 。 
延 时 时 间 的 长 度 应 调整 到 能 够 区 分 测试 音色 所 需 的 最 小 的 时 间 长 度 。 一 般 来 说 ， 测 试 音色 越 
响 ， 我 们 的 听觉 克服 遮掩 而 听 到 遮掩 音色 的 时 间 就 越 每 。 图 14-6 显示 了 这 种 效果 : 在 60dB HEHE 
音色 产生 后 ， 我 们 需要 500 毫秒 的 时 间 辨 别 出 安 静 的 测试 音色 。 当 然 ， 这 条 曲线 会 随 着 遮掩 音色 
频率 的 不 同 而 发 生变 化 。 
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40 测试 音色 
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14-6 测试 音色 越 响 ， 当 遮掩 音色 被 去 除 时 听 到 测试 音调 所 需要 的 时 间 越 短 


测试 音色 的 频率 越 接近 遮掩 音色 的 频率 ， 它 被 迹 掩 的 程度 越 高 。 因 此 ， 给 定 一 个 谈 掩 音色 ， 
我 们 能 够 看 到 二 维 时 间 遮 掩 情况 ， 如 图 14-7 所 示 。 测试 音色 的 频率 越 接 近 谈 掩 音色 的 频率 ， 当 遮 
掩 音色 停止 后 所 需要 的 时 间 就 越 接 近 ， 测 试 音 色 无 法 被 听 到 的 可 能 性 就 越 大 。 图 中 显示 了 频率 和 
时 间 遮 掩 的 整体 效果 。 

饱和 现象 也 和 使 用 多 长 时 间 的 遮掩 音色 有 关 。 图 14-8 显示 , 如 果 一 种 遮掩 音色 保持 时 间 (200 
毫秒 ) 比 男 外 一 种 的 时 间 (100 毫秒 ) 更 长 ， 那 么 听 到 测试 音色 需要 的 时 间 就 更 长 。 

正如 它 可 以 遮掩 其 他 刚好 在 它 产生 之 后 产生 的 信号 〈 后 遮掩 ) PE, RME S EET DHS 
刚好 在 它 产生 之 前 的 信号 前 遮掩 )。 













低 于 表面 的 音 
-10 SS 色 就 听 不 到 了 
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图 14-8 时间 遮掩 的 效果 也 秋 掩 音色 所 应 用 的 时 间 有 关 。 实 线 表示 t 
遮掩 音色 保持 200 毫秒 ， 虚 线 表示 遮掩 音色 保持 100 毫秒 st 
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UU SF) As CT |] BD BBC 2~5 毫秒 )， 它 在 这 方面 比 后 遮掩 〈 一 般 50~200 毫秒 ) BAR. 

MPEG 音频 压缩 利用 利用 前 面 提 到 的 因素 构成 一 个 庞大 的 多 维 查找 表 。 它 使 用 这 个 表 来 传送 
被 遮掩 的 频率 成 分 ， 这 些 成 分 或 因 频 率 遮 掩 ， 或 者 因 时 间 遮 掩 ， 或 者 被 两 者 同时 遮掩 ， 从 而 获得 
更 少 的 位 数 。 


14.2 MPEG 音频 


MPEG 音频 先 对 输入 应 用 一 个 滤波 器 组 ， 把 输入 分 解 得 到 其 频率 成 分 。 同 时 ， 对 数据 应 用 一 
个 心理 声学 模型 ， 这 个 模型 在 位 分 配 块 中 使 用 。 然 后 ， 被 分 配 的 位 数 用 于 量化 从 滤波 器 组 获得 的 
信息 。 最 后 的 结果 是 量化 提供 压缩 ， 位 被 分 配 到 最 需要 它们 的 地 方 以 便 将 量化 噪声 降低 到 可 听 到 
的 级 别 之 下 。 


14.2.1 MPEG RE 


MP3 是 一 种 常用 的 音频 压缩 标准 。 数 字 “3” 代 表 三 层 ,“MP” 代 表 MPEG-1 标准 。 让 我 们 
回忆 一 下 第 11 章 中 的 MPEG 视频 压缩 算法 。 不 过 ，MPEG 标准 实际 上 刻画 多 媒体 的 三 个 不 同方 
Hi: 音频 、 视 频 和 系统 。MP3 是 MPEG 第 一 阶段 的 音频 部 分 。 它 在 1992 年 发 布 ， 并 且 为 1993 
年 发 布 的 国际 标准 ISO/ 正 C11172-3 奠定 了 基础 。 

MPEG 音频 使 用 3 个 向 下 兼容 的 音频 压缩 层 ， 每 一 层 都 能 够 理解 比 它 低 的 层 。 每 一 层 提 供 更 
复杂 的 心理 声学 模型 应 用 ， 相 应 地 ， 为 给 定 级 别 的 音频 质量 提供 更 好 的 压缩 。 但 是 ， 随 着 复杂 性 
的 增加 ， 压 缩 率 的 提高 ， 会 带 来 更 多 的 延 时 。 

MPEG 音频 中 的 第 一 层 到 第 三 层 是 兼容 的 ， 因 为 所 有 的 层 包 含 相 同 的 文件 头 信息 。 

第 一 层 的 质量 非常 好 ， 可 以 提供 相当 高 的 码 率 。 数 字音 频 磁 带 一 般 就 使 用 第 一 层 。 第 二 层 更 
复杂 一 些 ， 并 且 通 常用 于 数字 音频 广播 。 第 三 层 (MP3) 最 复杂 ， 它 的 最 初 的 目标 是 在 ISDN 线 
路 上 进行 音频 的 传输 。 每 一 层 都 使 用 不 同 的 频率 变换 。 

大 部 分 复杂 性 不 是 在 解码 端 而 是 在 编码 端 增加 的 , 这 也 是 MP3 播放 器 如 此 流行 的 原因 。 第 一 
层 结合 了 最 简单 的 心理 声学 模型 ， 而 第 三 层 使 用 了 最 复杂 的 心理 声学 模型 。 其 目标 是 权衡 好 质量 
和 码 率 之 间 的 关系 “质量 ”是 用 收听 测试 得 分 来 定义 的 《心理 学 家 在 方面 拥有 统治 地 位 )， 其 中 
质量 度量 的 定义 如 下 : 

。5.0=“ 清 晰 的 ”一 一 觉察 不 到 与 原始 的 信号 有 差异 ， 相 当 于 使 用 14 或 者 16 位 PCM 编码 的 

CD 质量 的 音频 。 

。 4.0= 能 够 感觉 到 差异 ， 但 是 不 会 让 人 感到 烦 扰 。 

。3.0= 稍 微 让 人 感觉 烦 扰 。 

。2.0= 感 觉 烦 扰 。 

。1.0= 感 觉 非常 烦 扰 。 

(现在 就 非常 科学 了 !) 在 每 个 通道 64kbps 的 传输 率 下 ， 第 二 层 的 分 数 为 2.1~2.6， 而 第 三 层 
得 分 为 3.6~3.8。 所 以 第 三 层 取 得 了 很 大 的 进步 ， 但 是 仍然 不 够 完美 。 


142.2 MPEG 音频 策略 


压缩 是 肯定 需要 的 , 因为 即使 是 音频 也 会 占用 相当 大 的 带宽 : CD 音频 的 采样 频率 是 44.1kHz， 
每 通道 16 位 ， 所 以 两 个 通道 需要 大 约 1.4Mbps 的 码 率 。MPEG-I 的 目标 是 大 约 1.5Mbps， 其 中 
1.2Mbps 用 于 视频 ， 而 256kbps 用 于 音频 。 

MPEG 压缩 方法 和 量化 有 关 ， 当 然 ， 我 们 也 能 看 出 人 类 听觉 系统 在 临界 频段 宽度 内 ， 在 接受 
到 的 响 度 和 测试 频率 的 能 听 度 这 两 个 方面 ， 并 不 是 准确 的 。 编 码 器 使 用 了 一 组 滤波 器 ， 通 过 计算 
信号 值 窗口 的 频率 变换 ， 首 先 分 析 音 频 信 号 的 频率 (频谱 ) 成 分 。 滤 波 器 组 把 信号 分 解 成 很 多 子 
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带 。 第 一 层 和 第 二 层 编 /解码 使 用 积分 映射 滤波 的 方式 ， 而 第 三 层 编 / 解 码 增加 了 一 个 DCT (离散 
余弦 变换 )。 对 于 心理 声学 模型 ， 可 以 使 用 傅 里 时 变换 。 

然后 就 可 以 使 用 频率 遗 扼 了 ， 使 用 心理 声学 模型 来 估计 可 以 被 察觉 的 品 声 级 别 的 临界 值 。 在 
它 的 量化 和 编码 阶段 ， 通 过 去 掉 不 能 昕 到 的 频率 和 依照 在 遮掩 之 后 剩余 声音 的 级 别 伸缩 量化 步 
长 ， 编 码 器 可 平衡 遮掩 行为 和 可 用 的 位 数 。 

复杂 的 模型 可 以 考虑 不 同 频率 中 心 的 临界 频段 的 实际 宽度 。 在 临界 频段 内 ， 我 们 的 听觉 系统 
不 能 很 好 地 分 辨 临近 的 频率 ， 而 通常 会 把 它们 混和 起 来 。 正 如 前 面 提 到 的 ， 能 够 听 到 的 频率 通常 
被 分 为 25 个 主 临界 频段 ， 这 是 听觉 临界 频段 启发 的 结果 。 

然而 ， 为 保持 设计 的 简单 性 ， 模 型 通过 32 个 重 倒 子 带 对 所 有 频率 分 析 滤 波 器 使 用 了 一 种 统 
一 宽度 [9,10]。 这 意味 着 ， 在 低频 处 ， 每 一 个 频率 分 析 “ 子 带 ” 覆盖 了 听觉 系统 的 临界 频段 的 宽度 ， 
然而 对 于 高 频 来 说 并 不 是 这 样 ， 因 为 临界 频段 的 宽度 在 低 端 小 于 100Hz， 而 在 高 端 要 大 于 4kHz。 
对 于 每 一 个 频段 ， 在 遮掩 级 别 之 上 的 声 级 表明 必须 分 配 多 少 位 来 编码 信号 值 ， 从 而 使 得 量化 噪声 
能 够 被 控制 在 遮掩 级 别 之 下 而 不 会 被 听 到 。 

在 第 一 层 中 ， 心 理 声学 模型 只 使 用 了 频率 遮掩 。 码 率 范围 从 32kbps〈 单 声 道 ) ~448kbps (Z 
体 声 )。 用 256~384kbps 的 码 率 可 以 得 到 类 似 CD 的 立体 声音 质 。 第 二 层 使 用 一 些 时 间 和 遮掩 方法 聚 
集 了 更 多 的 样 例 ， 并 且 分 析 在 当前 样 例 块 和 其 之 前 或 者 之 后 的 样 例 块 之 间 的 时 间 遮 掩 。 其 码 率 可 
以 达到 32~192kbps( 单 声 道 ) 和 64~384kbps (立体 声 )。 立体 声 CD 音频 质量 需要 大 约 192~256kbps 
的 码 率 。 406 

但 是 ， 时 间 遮 掩 对 于 压缩 来 说 并 没有 频率 遮掩 重要 ， 这 也 是 为 什么 有 时 完全 不 使 用 低 复杂 性 
编码 器 的 原因 。 第 三 层 关注 低 码 率 应 用 ， 使 用 具有 不 均匀 子 带 宽度 的 更 复杂 的 子 带 分 析 。 它 也 添 
加 了 不 均匀 量化 和 业 编 码 。 码 率 被 标准 化 为 32~320kbps。 


14.2.3 MPEG 音频 压缩 算法 

1， 基 本 算法 

图 14-9 显示 的 是 一 个 基本 的 MPEG 音频 压缩 算法 。 它 通过 滤波 器 组 ， 把 输入 分 解 成 32 个 子 
带 。 这 是 一 个 线性 的 过 程 ， 就 好 像 输 入 是 一 组 32 个 PCM 样本 ， 按 时 间 顺 序 采样 ， 而 产生 的 输入 
是 32 个 频率 的 系数 。 如 果 采 样 频率 是 有 ， 令 fs = 48ksps 〈 每 秒 千 样本 数 ， 即 48kHz)， 那 么 由 奈 
牵 斯 特定 理 可 知 ， 最 高 的 映射 频率 将 会 是 f, /2 ， 因 此 映射 带宽 被 分 为 32 个 等 宽 的 段 ， 每 段 的 宽 
度 是 f.164 OX BR AAR BS), 
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在 第 一 层 编码 器 中 ，32 PCM 值 的 集合 被 首先 组 合成 12 组 的 集合 ， 每 组 32 个 。 因 此 ， 编 码 
器 具有 固有 的 时 间 延 时 ， 等 于 聚集 384〈 即 12x32) 个 样本 的 时 间 。 例 如 ， 如 果 采 样 是 以 32kbps 
进行 的 ， 那 么 12 毫秒 的 持续 时 间 是 必要 的 ， 因 为 每 毫秒 传送 一 个 含有 32 个 样本 的 1 个 集合 。 这 
12 个 样本 的 集合 ， 每 一 个 大 小 是 32， 被 称 作 段 。 组 合 的 关键 在 于 ， 在 频率 分 析 完 成 后 ， 同 时 分 
析 在 32 个 子 带 中 的 12 个 值 的 集合 ， 然 后 分 析 所 有 12 个 数值 总 体 的 基础 量化 值 。 

延 时 实际 上 比 所 需要 的 聚集 384 个 样本 的 时 间 还 要 长 一 点 ， 因 为 还 需要 头 信息 。 而 且 ， 还 可 
以 有 辅助 数据 ， 比 如 多 语 数据 和 环绕 声音 数据 。 较 高 的 层 还 可 以 分 析 比 384 更 多 的 样本 ， 因 此 子 
AREAS (SBS) 的 格式 也 可 以 加 入 ，SBS 使 用 一 种 合成 的 数据 帧 ， 如 图 14-10 所 示 。 头 信息 中 包 
含 同步 编码 (12 个 1 一 11111111111)、 使 用 的 采样 频率 、 码 率 和 立体 声 信息 。 帧 格式 也 包含 所 
谓 的 “辅助 ”〈 额 外 ) 信 息 空 间 ( 事 实 上 , 一 个 MPEG-1 音频 解码 器 可 以 至 少 部 分 解码 一 个 MPEG-2 
音频 位 流 ， 因 为 文件 头 以 MPEG-1 头 开始 ， 然 后 将 MPEG-2 数据 流放 在 MPEG-1 存放 辅助 数据 的 
地 方 )。 








| xw sse | SBS | 辅助 数据 | 





图 14-10 MPEG 音频 帧 示例 


MPEG 音频 可 以 用 于 处 理 立 体 声 ， 当 然 也 可 以 处 理 单 声 道 。 一 个 特殊 的 连接 立体 声 模式 通过 
考虑 两 个 立体 声 通道 之 间 的 元 余 产 生 一 个 流 。 这 是 一 个 视频 信号 合成 的 音频 版 本 。 它 能 够 处 理 二 
重 单 频道 一 一 两 个 通道 独立 编码 。 这 在 并 行 处 理 音频 的 时 候 十 分 有 用 一 一 比如 ， 处 理 两 个 语音 流 
(一 个 是 英语 ， 另 外 一 个 是 西班牙 语 )。 

把 32x12 段 视 为 一 个 32x12 的 矩阵 。 算 法 下 一 阶段 要 考虑 比例 ， 以 便 设 置 合适 的 量化 级 别 。 
对 于 32 个 子 带 的 每 一 个 子 带 ， 找 到 数组 中 各 行 对 应 的 12 个 样本 的 最 大 幅度 ， 它 就 是 那个 子 带 的 
缩放 因子 。 随 后 ， 将 这 个 最 大 值 传递 给 算法 的 位 分 配 块 ， 一 起 传递 的 还 有 SBS ( 子 带 样本 )。 位 
分 配 块 的 重点 是 确定 如 何 为 量化 子 带 信和 号 分 配 可 用 的 编码 位 ， 从 而 使 可 听 到 的 量化 噪声 降低 到 最 
小 程度 。 

我 们 都 知道 ， 心 理 声学 模型 是 相当 复杂 的 ， 比 起 一 个 查找 表 集 合 要 复杂 得 多 (实际 上 这 种 模 
型 并 没有 在 规范 中 加 以 标准 化 一 一 它 的 形成 的 是 音频 编码 器 的 “艺术 ”内 容 ， 并 且 是 所 有 的 编码 
器 不 都 一 样 的 主要 原因 )。 在 第 一 层 中 ， 包 含 一 个 确定 的 阶 跃 ， 以 基本 上 确定 每 种 频段 更 像 一 个 
音色 还 是 噪声 。 根 据 这 个 决定 和 缩放 因子 ， 我 们 计算 每 个 频段 的 下 掩 阔 值 ， 并 且 与 听觉 阅 值 进行 
对 比 。 

模型 的 输出 由 一 组 称 作 信 号 遮掩 比 (Signal-to-Mask Ratio, SMR) 的 值 所 组 成 ， 它 们 标记 了 
幅度 低 于 遮掩 级 别 的 频率 成 分 ,SMR 是 在 每 一 个 频段 中 短期 信号 的 能 量 与 最 小 子 带 遮 掩 阔 值 的 比 
值 。SMR 给 出 了 所 需 的 幅度 分 解 ， 因 此 也 可 以 控制 将 要 分 配给 子 带 使 用 的 位 。 在 确定 SMR 之 后 ， 
可 使 用 前 面 讨论 的 缩放 因子 来 设置 量化 级 别 ， 使 得 量化 误差 自身 降 到 遮掩 级 别 之 下 。 这 样 可 以 确 
保 将 更 多 的 位 用 于 听觉 最 敏感 的 区 域 。 总 之 ， 当 使 量化 噪声 不 会 被 听 到 所 需 的 位 越 少 ， 编 码 器 在 
临界 频段 将 使 用 的 位 数 也 越 少 。 

缩放 因子 首先 使 用 6 位 进行 量化 。 然 后 量化 每 个 子 带 的 12 个 值 。 使 用 4 位 ， 在 使 用 一 个 和 迭 
代 的 位 分 配方 案 之 后 ， 对 每 一 个 被 传输 的 子 带 进行 位 分 配 。 然 后 数据 使 用 适合 每 个 子 带 的 位 深度 
加 以 传输 。 总 而 言 之 ， 数 据 是 由 量化 缩放 因子 和 组 成 一 个 称 为 子 带 样本 格式 的 12 个 码 字 组 成 的 。 

在 解码 器 端 ， 对 值 进行 逆 量化 ， 重 新 建立 32 个 样本 幅度 。 它 们 要 通过 一 个 合成 滤波 器 组 ， 
合成 滤波 器 的 作用 就 是 重建 32 个 PCM 样本 的 集合 。 注 意 ， 在 解码 器 端 并 不 需要 心理 声学 模型 。 
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图 14-11 显示 了 如 何 组 织 样本 。 一 个 第 二 层 或 者 第 三 层 的 帧 实际 上 对 于 每 一 个 子 带 聚 集 的 样 
本 多 于 12 个 ， 即 一 帧 包含 1152 个 样本 ， 而 不 是 384 个 。 
IEE an LAR ， 
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子 带 滤波 器 31 
每 个 子 带 滤波 器 在 每 32 个 1 ABI 
入 中 产生 一 个 5 ' ' 
mene oe 层 2 和 层 3 的 帧 


图 14-11 MPEG 音频 帧 的 大 小 

2， 位 的 分 配 

位 的 分 配 算法 并 不 是 标准 的 一 部 分 ， 因 此 可 以 使 用 很 多 种 可 能 的 方法 来 完成 它 。 它 的 目标 是 
保证 所 有 的 量化 噪声 低 于 遮掩 阔 值 。 然 而 ， 对 于 低 码 率 的 情况 通常 就 不 是 这 样 了 。 心 理 声学 模型 
在 这 些 情况 下 发 挥 了 作用 ， 从 可 用 的 位 数 中 分 配 更 多 的 位 给 最 能 有 效 提高 分 辨 率 的 子 带 。 一 个 常 
见 的 方案 如 下 所 示 。 

对 于 每 一 个 子 带 ， 心 理 声学 模型 计算 信号 遮掩 比 〈 以 dB 为 单位 )。MPEG 音频 标准 的 查找 表 
也 提供 了 一 个 SNR《〔 信 噪 比 ) 的 估计 ， 它 假设 对 一 个 给 定量 化 器 等 级 进行 量化 。 409 

然后 ， 遮 掩 噪声 比 (Mask-to-Noise Ratio, MNR) 的 定义 如 下 ; 

MNR as = SNR an -SMR an (14.6) 

如 图 14-12 所 示 。 所 有 子 带 上 的 最 低 的 MNR 已 经 确定 ， 并 且 增 加 了 分 配给 此 子 带 编码 的 位 数 。 
而 后 得 出 一 个 新 的 SNR 估计 ， 整 个 过 程 继续 迭代 ， 直 到 没有 剩余 位 能 够 用 来 分 配 为 止 。 
AN a 


4 
aes a 
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分 配给 临界 
频段 的 位 


邻接 频段 ”临界 频段 邻接 频段 频率 
图 14-12 ”遮掩 噪声 比 和 信号 遮掩 比 。 一 个 定性 的 SNR、SMR 和 MNR 的 
图 像 ， 使 用 一 个 主要 的 遮掩 和 给 特定 的 临界 频段 分 配 m 位 的 方法 
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遮掩 计算 与 子 带 滤波 并 行 执行 ， 如 图 14-13 所 示 。 计 算 遮 掩 曲线 需要 输入 准确 的 信号 分 解 ， 
使 用 离散 傅 里 叶 变换 (DFT)。 频 谱 通常 使 用 1024 点 的 快速 傅 里 时 (FFD 变换 来 计算 。 


PCM 音频 信号 








图 14-13 MPEG-1 音频 的 第 一 层 和 第 二 层 


在 第 一 层 中 ，16 个 统一 量化 器 被 提前 计算 好 ， 对 于 每 个 子 带 ， 量 化 器 给 出 了 被 选择 的 最 低 
失真 。 量 化 器 的 索引 以 每 个 子 带 边 信息 的 4 位 被 发 送出 去 ,每 一 个 量化 器 的 最 大 分 辨 率 是 15 fir. 

3， 第 二 层 

MPEG-1 音频 编 / 解 码 的 第 二 层 包 含 对 减少 码 率 和 提升 质量 的 小 改进 ， 其 代价 是 增加 了 复杂 
性 。 它 不 同 于 第 二 层 主要 是 对 12 个 样本 的 三 组 在 每 帧 内 进行 编码 ， 并 且 利 用 时 间 遮 掩 和 频率 庶 
掩 。 它 的 一 个 优势 就 是 如 果 三 个 组 的 缩放 因子 比较 相似 ， 那 么 其 中 一 个 缩放 因子 可 以 用 于 所 有 的 
三 个 组 。 但 是 ， 在 滤波 器 中 使 用 三 个 帧 〈 之 前 、 现 在 、 之 后 )， 每 个 通道 共有 1152 个 样本 ， 只 是 
近似 考虑 了 时 间 遮 掩 。 

而 且 ， 如 果 使 用 更 长 的 时 间 窗 ， 那 么 在 为 缓慢 变化 的 声音 建 模 方面 心理 声学 模型 更 加 适用 。 
我 们 使 用 36 个 样本 长 度 的 窗 而 不 是 12 个 进行 位 分 配 ， 量 化 器 的 分 辨 率 也 从 15 位 上 升 到 16 位 。 
为 了 保证 精度 提高 不 会 使 压缩 效果 变 差 ， 对 于 更 高 的 子 带 ， 我 们 选择 较 少 的 量化 器 的 数量 。 

4. 第 三 层 

R= (Bl MP3) 使 用 类 似 于 第 一 层 和 第 二 层 的 码 率 ， 但 是 它 提供 更 好 的 音频 质量 ， 其 代价 
是 增加 复杂 性 。 

第 三 层 也 使 用 类 似 于 第 二 层 的 滤波 器 组 ， 只 是 现在 更 加 与 感知 的 临界 频段 紧密 相连 了 ， 这 种 
粘着 是 通过 使 用 一 组 不 相等 频率 的 滤波 器 实现 的 。 这 一 层 也 考虑 了 立体 声 宛 余 的 问题 。 它 还 使 用 
了 一 个 改进 的 傅 里 叶 变 换 ， 即 用 修订 离散 余弦 变换 (MDCT) 来 处 理 离散 余弦 变换 (DCT) 在 窗 
口 边界 所 存在 的 问题 。 离 散 傅 里 时 变换 可 以 阻止 边界 效应 的 发 生 。 当 这 样 的 数据 被 量化 ， 然 后 被 
逆 变 换 回 时 间 域 的 时 候 ， 起 点 和 终点 的 样本 块 可 能 会 和 先前 的 或 者 随后 的 块 不 协调 ， 从 而 发 生 听 
到 周期 性 噪声 的 问题 。 

ER (14.7) 中 显示 的 MDCT 通过 引入 50% 的 重 又 帧 的 方法 去 除了 这 种 效果 。 


N-I 
Few = 29. foco (ia At usua u=0, *,N/2-1 (14.7) 
i=0 


MDCT 也 为 遮掩 和 频率 分 配 操作 给 出 了 更 好 的 频率 分 辩 率 。 另 外 ， 窗 口 大 小 可 以 从 36 个 样 
本 降 为 12 个 样本 。 即 便 如 此 ， 因 为 窗口 有 50% 重 又 ， 一 个 12 个 样本 的 窗口 仍然 可 以 包含 6 个 额 
外 的 样本 。 一 个 大 小 为 36 个 样本 的 窗口 包含 18 个 额外 的 样本 。 因 为 低频 时 ， 一 个 频率 更 像 一 个 
音色 而 不 是 噪声 ， 不 需要 对 它们 仔细 分 析 ， 所 以 我 们 可 以 使 用 一 种 混和 的 模式 ， 对 频率 最 低 的 两 


411 | 个 子 带 使 用 36 点 的 窗口 而 对 其 他 子 带 使 用 12 点 的 窗口 。 


而 且 ，MDCT 系数 依照 听觉 系统 的 实际 临界 频段 进行 分 组 ， 而 且 缩 放 因子 频段 就 是 根据 这 些 
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系数 来 计算 的 ， 而 不 是 把 子 带 的 统一 宽度 赋 给 缩放 因子 。 

通过 使 用 焙 编 码 和 利用 不 均匀 量化 器 的 方式 保存 更 多 的 位 数 。 并 且 ， 最 终 使 用 一 种 不 同 的 位 
数 分 配方 案 ， 它 分 为 两 部 分 。 首 先 ， 使 用 一 个 嵌 套 循环 ， 内 层 循 环 负责 调节 量化 器 的 形状 ， 而 外 
层 循环 则 评价 位 数 配置 的 失真 度 。 如 果 错 误 率 CRA”) 太 高 ， 则 增 大 缩放 因子 频段 。 其 次 ， 位 
数 池 从 不 需要 位 的 帧 中 积蓄 位 ， 然 后 把 它们 分 配 到 需要 位 的 帧 中 。 图 14-14 显示 了 MPEG 音频 第 
三 层 编码 的 框图 。 


PCM 音频 信号 


滤波 器 组 : be 
H Seas: | weer TAREN 


rcl 
samans — 位 流 格式 化 一 BARMI = 


图 14-14 MPEG-1 音频 的 第 三 层 


# 14-2 显示 出 多 种 已 经 实现 的 MP3 压缩 率 。 特 别 要 注意 的 是 ，CD 音质 已 经 实现 12:1~8:1 
的 压缩 率 〈 即 码 率 为 128~192kbps )。 


表 14-2 MP3 压缩 性 能 
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14.2.4 MPEG-2 高 级 音频 编码 


MPEG-2 标准 被 广泛 使 用 , 因为 它 是 DVD 的 标准 传播 媒介 , 而 且 它 还 拥有 音频 成 分 MPEG-2 
高 级 音频 编码 (AAC) 标准 [11] 的 目标 是 剧场 的 清晰 声音 重 现 。 它 可 以 以 5 通道 320kbps 进行 传 
播 ， 因 此 声音 可 以 从 5 个 方向 而 来 : 左 、 右 、 中 心 、 左 环线 和 右 环 绕 。 所 谓 的 5.1 通道 系统 还 包 
含 低频 增强 (LFE) 通道 (“低音 炮 ”)。 另 一 方面 ，MPEG-2 AAC 还 可 以 以 低 于 128kbps 的 码 率 传 
播 高 音质 立体 声 。 它 是 一 种 用 于 可 录 DVD- 音 频 (DVD-AR) 格式 的 音频 编码 技术 ， 已 经 在 两 个 
北美 卫星 广播 服务 之 一 的 XM Radio 上 使 用 。 

MPEG-2 音频 可 以 支持 最 多 48 个 通道 ， 采 样 率 为 8~96kHz， 每 通道 码 率 最 高 可 达 576kbps。 
和 MPEG-1 一 样 ，MPEG-2 支持 三 种 不 同 的 “设置 ” 但 是 目的 不 同 。 它 们 是 主要 (Main), 4 
RR (LC) 和 可 伸缩 采样 率 ( SSR )。LC 设置 需要 的 计算 少 于 Main 设置 ， 但 是 SSR 设置 会 分 解 
信号 使 得 不 同 解码 器 可 以 使 用 不 同 码 率 和 采样 率 。 

这 3 种 设置 所 遵循 的 方案 几乎 相同 ， 只 有 少许 修改 。 首 先 ， 在 有 2048 个 样本 的 “长 ”窗口 
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或 者 256 个 样本 的 “ 短 ” 窗 口 进行 MDCT 变换 。 随 后 使 用 时 域 噪声 整形 (TNS) 工具 对 MDCT 
系数 进行 滤波 ， 目 标 是 降低 前 遮掩 效果 并 获得 具有 稳定 音调 的 更 好 的 编码 信和 号 。 

MDCT 系数 随后 被 分 成 49 个 缩放 因子 频段 组 ， 这 些 组 大 致 和 人 类 听觉 系统 的 临界 频段 的 良 
好 分 辩 率 版 本 一 致 。 在 进行 频率 变换 的 同时 , 使 用 MPEG-1 中 类 似 的 心理 声学 模型 , 求 出 遮掩 阔 值 。 

Main 设置 使 用 一 个 预测 器 。 使 用 基于 之 前 的 两 帧 ， 而 且 最 高 只 影响 16kHz 频率 系数 的 方法 ， 
MPEG-2 从 频率 系数 中 减 去 预测 值 ， 这 个 步骤 确实 可 以 降低 失真 度 。 量 化 器 遵循 两 条 规则 ， 将 失 
真 度 保持 在 遮掩 阔 值 之 下 ， 并 且 使 用 位 池 ， 保 持 每 帧 使 用 的 平均 位 数 在 控制 范围 之 内 。 量 化 器 使 
用 缩放 因子 〈 它 可 以 用 于 增 大 某 些 缩放 因子 频段 } 和 不 均匀 量化 。MPEBG-2 AAC 也 对 缩放 因子 和 
BRE AR BE A aS 

同样 地 , AL ACE REE. ARTUR AER BILE, Ria SSE 
如 果 达 到 当前 帧 的 位 界限 ， 那 么 增加 量化 器 的 步 长 大 小 以 使 用 更 少 的 位 。 外 层 循 环 决定 对 于 每 一 
个 缩放 因子 频段 来 说 ， 失 真 度 是 否 在 遮掩 阔 值 之 下 。 如 果 频 段 失真 过 于 严重 ， 那 么 就 提高 此 频段 
的 SNR， 当 然 代价 就 是 使 用 更 多 的 位 。 

在 SSR 设置 中 ， 使 用 一 组 多 相 积 分 滤波 器 (PQF)。 这 个 短语 的 含义 是 信号 首先 被 分 成 四 个 
宽度 相等 的 频段 ， 然 后 使 用 MDCT。 第 一 步 的 重点 是 ， 如 果 必 须 降低 码 率 的 话 ， 解 码 器 可 以 决定 
忽略 四 个 频率 中 的 哪 一 部 分 。 


1425 MPEG-4 音频 


MPEG-4 音频 把 多 种 不 同音 频 成 分 整合 成 了 一 种 标准 ， 语 音 压缩 、 基 于 感知 的 编码 器 、 文 语 
转换 和 MIDI。 主 要 的 一 般 音 频 编 码 器 MPEG-4 AAC[12] 和 MPEG-2AAC 标准 很 相似 ， 只 有 一 些 
小 的 变化 。 

1. 感知 编码 器 

MPEG-4 的 一 个 改进 是 引入 感知 噪声 置换 模块 ， 它 考虑 在 4kHz 以 上 的 比例 因子 频段 ， 并 且 
包含 关于 声音 是 噪声 还 是 音色 的 判定 。 一 个 类 噪声 缩放 因子 频段 本 身 不 能 被 传输 ， 而 是 只 传送 它 
的 能 量 ， 而 且 频 率 系数 被 设置 为 零 。 然 后 解码 器 插入 具有 此 能 量 的 噪声 。 

男 一 个 改进 是 包含 位 分 片 算 术 编码 (BSAC) 模块 。 这 是 一 种 用 于 提高 码 率 可 伸缩 性 的 算法 ， 
它 是 通过 允许 解码 器 端 只 使 用 16kbps 基准 输出 自 最 小 值 端 1kbps 的 步 长 ) 从 而 对 64kbps 流 解 
码 来 实现 的 。 

MPEG-4 音频 包含 的 第 二 个 感知 音频 编码 器 被 称 作 变 换 域 加 权 插 入 失 量 量化 (TwinVQ) 的 向 
量 量化 方法 。 它 针对 低 码 率 ， 允 许 解码 器 丢弃 位 流 的 一 部 分 来 实现 码 率 和 采样 率 的 可 调节 性 。 
MPEG-4 音频 的 基本 策略 是 解码 器 使 用 的 音频 工具 的 数量 要 和 带宽 的 要 求 一 致 。 

2， 结 构 化 编码 器 

为 了 实现 低 码 率 传输 ，MPEG-4 使 用 了 一 种 称 为 合成 /自然 混合 编码 SNHC) 的 方法 。 它 的 
目标 是 把 “自然 的 ”多 媒体 序列 、 音 频 和 视频 及 其 相关 内 容 综 合 起 来 。 在 音频 中 ， 后 者 叫 作 “ 结 
构 化 ”音频 。 这 个 想法 主要 用 于 低 码 率 操作 ， 我 们 可 以 只 传递 一 个 指向 我 们 正在 使 用 的 指针 然后 
传递 音频 模型 的 参数 。 

在 视频 上 ， 基 于 模型 这 样 的 方法 可 能 涉及 传递 脸 部 动画 数据 而 不 是 自然 的 脸 的 视频 帧 。 在 音 
疾 上 ， 我 们 可 以 传递 英语 已 经 被 建 模 的 信息 ， 然 后 在 传递 英语 的 基本 音 (音素) 的 同时 ， 传 递 其 
他 规定 了 持续 时 间 和 音调 的 类 似 装 配 的 编码 。 

MPEG-4 使 用 工具 箱 方法 ， 允 许 相当 多 的 模型 规范 。 比 如 ， 文 语 转换 (Text-to-Speech，TTS) 
是 一 种 极 低 码 率 的 方法 ， 而 且 我 们 不 需要 知道 说 话 者 实际 上 如 何 发 音 就 可 以 使 用 。 假 设 我 们 可 以 
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从 相当 低 码 率 的 信息 中 派生 出 脸 部 动画 参数 ， 我 们 可 以 实现 一 个 相当 低 的 码 率 视频 会 议 系统 。 
结构 化 音频 中 的 另 一 个 “工具 ” 称 为 结构 化 音频 命令 语言 (SAOL， 发 音 为 “sail”)， 它 可 以 
应 用 简单 的 音频 分 析 规 范 ， 包 括 混 响 这 样 的 特殊 效果 。 
总 之 ， 结 构 化 音频 利用 了 音乐 中 的 元 余 ， 大 大 压缩 了 音频 描述 。 


14.3 ”其 他 商业 音频 编 解码 器 


表 14-3 总 结 了 其 他 现代 常用 音频 编码 器 的 目标 的 码 率 范 围 和 主要 特性 ,它们 和 MPEG-2 编码 
有 很 多 相似 之 处 。 


表 14-3 ”音频 编码 系统 的 对 比 
| | 


14.4 未来: MPEG-7 和 MPEG-21 


回想 一 下 ，MPEG-4 的 目标 是 利用 对 象 来 压缩 。 MPEG-4 音频 拥有 很 多 有 趣 的 特性 ， 比 如 3D 
的 声音 定位 、MIDI 的 整合 、 文 语 转换 、 不 同 码 率 的 不 同 编 解码 器 以 及 使 用 复杂 的 MPEG-2 AAC 
编 解 码 器 。 但 是 ， 新 的 MPEG 标准 将 主要 着 眼 于 “查找 ” 假如 多 媒体 确实 要 根据 对 象 进行 编码 ， 
我 们 如 何 能 够 找到 对 象 ? 

MPEG-21[13] 的 公式 是 一 个 正在 进行 的 努力 ， 其 目标 是 努力 制定 一 套 从 消费 者 视角 出 发 的 多 
媒体 框架 标准 ， 特 别 强调 互 操作 性 。 但 是 ， 我 们 可 以 讨论 一 些 关 于 MPEG-7 方法 如 何 描述 结构 化 
的 音频 模型 的 细节 ， 以 达到 提升 音频 搜索 方便 性 的 效果 。 

MPEG-7 提供 了 一 种 针对 视听 多 媒体 序列 进行 元 数据 标准 化 的 方法 ， 其 正式 名 称 是 多 媒体 内 
窜 描 述 接口 。MPEG-7 用 于 表示 关于 多 媒体 信息 的 信息 。 

在 音频 方面 ， 目 标 是 方便 音频 内 容 的 表现 和 通过 音色 或 其 他 描述 符 进 行 查找 。 因 此 ， 研 究 人 
员 正 在 致力 于 开发 一 种 能 够 有 效 描述 并 且 帮 助 在 文件 中 查找 特定 音频 的 描述 符 。 这 些 都 需要 人 类 
分 析 或 者 自动 内 容 分 析 ， 并 且 不 是 仅仅 以 低层 结构 〈 如 旋律 ) 为 目标 ， 而 是 从 相关 的 结构 或 者 语 
义 内 容 中 提取 信息 。 

一 个 MPEG-7 支持 的 示例 应 用 是 自动 语音 识别 (ASR )。 语 言 理解 也 是 MPEG-7“ 内 容 ” 的 一 
个 目标 。 从 理论 上 说 , MPEG-7 将 允许 按照 口语 或 者 视觉 事件 上 进行 搜索 :“ 为 我 找到 哈姆雷特 在 
第 几 章 说 过 “生存 还 是 毁灭 ' ”但 是 ，MPEG-7 的 描绘 一 个 完整 的 、 结 构 化 的 音频 模型 的 目标 是 
没有 办 法 完成 的 。 

不 过 ， 低 层 特性 是 重要 的 。 关 于 这 些 工 作 的 最 新 总 结 [16] 开 始 了 对 其 中 一 个 这 样 的 描述 符 的 
研究 。 


145 ”进一步 探索 


文章 [9,17] 中 包含 了 关于 MPEG 的 详细 问 顾 。 在 [18] 中 有 关于 MPEG-4 中 的 自然 音频 编码 的 
全 面 解 释 。{19] 中 介绍 了 结构 化 音频 ，[20] 和 [21] 中 有 关于 MPEG-4 中 的 自然 和 结构 化 音频 的 详尽 
介绍 。 

本 章 网 站 上 的 Further Exploration 部 分 包含 很 多 有 用 的 链接 : 

。 非常 全 面 的 MPEG 音频 和 MP3 链接。 














主要 应 用 
点 到 点 ， 有 线 











DolbyAC-2 
DolbyAC-3 
SonyATRAC 
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415 
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。 MPEG 音频 FAQ. 
。 Fraunhofer-Gesellschaft 研究 所 的 一 篇 非常 出 色 的 关于 大 步 长 可 伸缩 性 工具 的 文献 ， 


“MPEG 4 Audio Scalable Profile”。 它 允许 解码 器 根据 有 效 带 宽 决 定 使 用 多 少 工具 和 在 何 种 
复杂 度 进行 解码 。 


146 练习 
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Ca) 依照 式 (14.1)， 在 1000Hz SERS >? 
(回想 一 下 ， 这 个 等 式 是 在 0dB 上 使 用 2kHz 作为 参考 。) 

Cb) 推导 式 (14.1) 并 且 令 它 为 零 , 求 出 使 曲线 最 小 的 频率 。 我 们 最 敏感 的 频率 是 多 少 ? 提示 : 
需要 计算 才能 得 到 答案 。 


， 响 度 与 振幅 。60dB 的 1000Hz 声音 和 60dB 的 100Hz 声音 ， 哪 一 个 更 响 ? 
. 在 图 14-1 中 ， 对 于 Fletcher-Munson 曲线 (新 版 本 的 )， 观 察 这 些 数 据 的 方法 是 ， 设 定 y 轴 的 


值 、 声 压 值 ,然后 测量 人 类 的 有 效 感 知 响 度 估计 。 给 出 一 组 观察 值 ， 我 们 必须 怎样 做 才能 把 它 
们 转换 为 图 中 所 示 的 接收 响 度 曲线 ? 


， 两 个 音色 同时 产生 。 假 设 音色 1 已 经 确定 ， 而 音色 2 的 频率 可 以 变化 。 音 色 1 的 临界 带宽 是 


音色 2 的 频率 范围 , 在 此 我 们 可 以 昕 到 敲打 声 和 一 个 难听 的 声音 。 敲打 声 是 一 种 比 两 种 接近 音 
色 更 低频 率 的 泛音 ; 它们 因为 两 个 音色 的 频率 差异 而 产生 。 临 界 带宽 在 一 个 频率 范围 之 内 ， 超 
过 这 个 范围 ， 两 个 音色 的 声音 就 有 不 同 的 音调 了 。 

Ca) 粗略 估计 220Hz 的 临界 带宽 是 多 少 ? 

Cb) 说 明 如 何 设计 一 个 实验 来 测量 临界 带宽 ? 


. 在 Web 上 查找 下 面 心理 声学 现象 的 含义 : 


(a) 虚拟 音 高 

Cb) 听觉 情景 分 析 

C) 八 度 音程 有 关 的 复杂 音色 
(d) 三 全 音 怪 论 

Ce) 不 和 谐 的 复杂 音色 


， 如 果 在 MPEG 音频 第 一 层 的 采样 频率 上 是 32ksps， 那 么 每 一 个 32 个 子 带 中 的 子 带 带 宽 是 多 大 ? 
， 假 定 第 8 MARRS ER 60dB， 那 么 在 它 停止 10 毫秒 之 后 ， 第 9 个 频段 的 遮掩 效果 是 


25dB. 

(a) WRR 9 个 频段 的 原始 信号 是 40dB， 那 么 MP3 会 如 何 ? 
(b) 如 果 原 始 信号 是 20dB W? 

Co) 针对 (a). (b) 两 种 情况 ， 应 该 给 第 9 个 频段 分 配 多 少 位 ? 


8. AT MAME, MPEG 的 第 三 层 (MP3) 音频 与 第 一 层 有 什么 不 同 ? 


.把 一 段 CD Ë 


， 用 作 的 理解 向 音频 设备 的 销售 员 解 释 MP3。 
.实现 MDCT， 只 对 一 个 有 36 个 样本 信号 ， 比 较 和 DCT 得 到 的 频率 的 不 同 。 当 声音 频率 较 低 


时 ， 哪 种 方法 能 更 好 把 能 量 集中 到 前 面 几 个 系数 ? 





数 人 不 能 ) 


， 对 于 两 通道 立体 声 ， 我 们 一 般 都 通常 采用 第 二 个 通道 和 第 一 个 并 行 的 方式 ， 利 用 从 第 一 个 通 


道 收集 的 信息 来 压缩 第 二 个 通道 。 讨 论 你 对 实现 过 程 的 看 法 。 
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三 部 分 “多 媒体 通信 和 检索 


第 15 章 计算 机 和 多 媒体 网 络 

第 16 章 多 媒体 网 络 通信 和 应 用 

第 17 章 无 线 网 络 

第 18 章 数字 图 书馆 中 基于 内 容 的 检索 


多 媒体 对 网 络 和 系统 提出 了 巨大 的 需求 。 在 这 一 部 分 中 ， 我 们 将 考察 几 个 基本 的 和 具有 挑 
战 性 的 重要 多 媒体 网 络 和 应 用 。 


多 媒体 网 络 

随 着 光纤 技术 的 突破 ， 网 络 带宽 不 断 增 长 ， 我 们 正在 目睹 电信 网 络 、 计 算 机 和 多 媒体 网 络 
的 集成 ， 以 及 混合 通信 类 型 ( Internet 电话 、 视 频 点 播 等 ) 的 浪潮 。 多 路 复 用 和 调度 技术 也 正 
在 被 反复 研究 。 而 且 ， 我 们 正在 目睹 无 线 网 络 的 兴起 ( 想 想 我 们 的 移动 电话 和 PDA )。 

在 第 15 章 中 ， 我 们 将 讨论 计算 机 和 多 媒体 网 络 的 基本 问题 和 技术 ， 第 16 章 将 继续 介绍 
多 媒体 网 络 通信 和 应 用 。 第 17 章 将 简要 介绍 无 线 网 络 , 以 及 这 些 网 络 上 和 多 媒体 通信 有 关 的 
问题 。 

数字 图 书馆 中 基于 内 容 的 检索 

从 多 媒体 数据 库 中 自动 检索 在 句法 和 语义 上 有 意义 的 内 容 极 其 困难 ， 尤 其 是 当 多 媒体 数据 
库 内 容 已 经 极为 丰富 且 数 据 库 的 规模 也 在 急剧 增长 的 情况 下 。 第 18 章 将 讨论 多 媒体 数据 库 系 
统 的 这 一 特定 应 用 ， 探 讨 与 在 数字 图 书馆 中 进行 基于 内 容 的 检索 、 存 储 和 浏览 有 关 的 问题 。 
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第 15 章 计算 机 和 多 媒体 网 络 


我 们 熟悉 和 日 益 依 赖 的 计算 机 网 络 对 于 现代 计算 环境 而 言 是 不 可 或 缺 的 。 多 媒体 网 络 面 临 的 
主要 问题 和 使 用 的 技术 与 计算 机 网 络 一 样 。 此 外 ， 持 续 增长 的 对 各 种 多 媒体 通信 的 需求 使 得 网 络 
成 为 最 热门 的 研究 和 发 展 领域 之 一 。 

本 章 将 先 介绍 一 些 计 算 机 和 多 媒体 网 络 中 常用 的 技术 和 方法 ， 接 下 来 再 介绍 各 种 高 速 网 络 ， 
因为 它们 正 逐 渐 成 为 当前 多 媒体 系统 的 核心 部 分 。 


15.1 计算 机 和 多 媒体 网 络 基础 


15.1.1 OSI 网 络 的 层次 

一 直 以 来 ， 网 络 通信 被 认为 是 一 件 涉及 不 同 层 次 协议 的 复杂 任务 。 因 此 ， 国 际 标 准 化 组 织 
(ISO) 于 1984 年 提出 了 一 种 叫做 开放 式 系统 互 连 (Open Systems Interconnection, OSD 的 多 层 
次 协议 体系 结构 ， 这 个 体系 最 终 标准 化 为 ISO 7498。OSI 参考 模型 的 网 络 层 如 下 所 示 [1，2]: 

1) 物理 层 。 该 层 定义 物理 接口 的 电气 与 机 械 属 性 〈 如 信和 号 强度 ， 连 接 器 的 规范 等 )， 还 指明 
了 物理 接口 电路 的 功能 与 过 程 时 序 。 

2) 数据 链 路 层 。 该 层 指定 建立 、 维 护 和 终止 连接 的 方法 ， 如 传送 和 同步 数据 帧 、 差 错 修复 
和 访问 物理 层 的 协议 。 

3) 网 络 层 。 该 层 定义 数据 在 网 络 上 由 一 端 到 另 一 端的 路 由 ， 比 如 电路 交换 和 包 交 换 。 提 供 
寻 址 、 网 际 互 连 、 错 误 处 理 、 拥 塞 控 制 和 包 排 序 等 服务 。 

4) 传输 层 。 该 层 在 支持 终端 用 户 应 用 程序 或 服务 的 终端 系统 之 间 提 供 端 到 端的 通信 ， 支 持 
面向 连接 或 者 无 连接 的 协议 ， 提 供 错误 修复 和 流量 控制 功能 。 

5 会 话 层 。 该 层 协 调 不 同 主机 上 用 户 应 用 程序 之 间 的 交互 ， 管 理会 话 〔( 连 接 )， 比 如 长 文件 
传输 的 完成 。 

6) 表示 层 。 该 层 处 理 传输 的 数据 的 语法 ， 比 如 不 同 数据 格式 的 转换 和 针对 于 不 同 惯例 的 编 
码 、 压 缩 和 加 密 。 

7) 应 用 层 。 该 层 包含 各 种 应 用 程序 和 协议 ， 比 如 FTP. Telnet. HTTP. SNMP. SMTP/ 
MIME 等 。 


15.1.2 TCP/IP 协议 


虽然 OSI 协议 体系 有 助 于 发 展 计算 机 网 络 ， 但 是 由 于 一 种 叫做 TCP/P 的 更 为 实用 的 协议 族 
的 竞争 ， 它 并 没有 得 到 广泛 接受 。TCP/IP 协议 族 在 美国 国防 部 的 资助 下 先 于 OSI 开发 出 来 。 由 于 
在 因特网 上 得 到 广泛 应 用 ，TCP/P 协议 族 已 经 成 为 事实 上 的 标准 。 

图 15-1 比较 了 OSI 和 TCP/IP 协议 的 体系 结构 。 可 以 看 出 ，TCP/IP 缩减 了 协议 的 层 数 ， 而 且 
把 OSI 体系 的 最 上 面 三 层 合并 为 一 个 应 用 层 。 实 际 上 ，TCP/IP 非常 灵活 ， 以 至 于 有 的 时 候 应 用 层 
的 协议 可 以 直接 操作 IP. 
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图 1$-1 OSI FA TCPAP 协议 的 体系 结构 和 示例 协议 的 比较 

1. 传输 层 : TCP 和 UDP 

TCP 和 UDP 是 TCP/IP 中 用 来 实现 端 到 端 〈 点 对 点 ) 通信 的 两 种 传输 层 协议 。 422 

(1) 传输 控制 协议 (Transmission Control Protocol, TCP) 

TCP 是 面向 连接 的 ， 因 为 它 提供 网 络 上 通信 进程 间 可 靠 的 数据 传输 。 它 处 理 将 应 用 数据 发 送 
到 目的 进程 的 过 程 ， 但 并 不 关心 数据 报 或 者 包 的 大 小 。 然 而 ，TCPI/IP 是 为 包 交 换 网 络 建立 的 。 因 
此 ， 由 于 并 没有 连接 电路 ， 数 据 仍然 需要 进行 分 包 。 

TCP 依靠 P 层 来 将 消息 发 送 到 IP 地 址 所 确定 的 目标 计算 机 上 。 它 支 持 消 息 包装 、 错 误 检 测 、 
重 传 、 包 重 排序 和 多 路 复 用 。 由 于 运行 TCP/P 的 进程 需要 与 一 个 远程 进程 建立 多 个 网 络 连接 ， 
因此 多 路 复 用 这 个 功能 通过 用 端口 号 标识 每 个 连接 的 方式 来 实现 。 

对 于 每 个 TCP 连接 , 进行 通信 的 计算 机 都 分 配 一 个 叫做 窗口 的 缓冲 区 来 接收 和 发 送 数 据 。 流 
量 控制 通过 保证 发 送 的 数据 不 会 从 目的 计算 机 的 窗口 中 溢出 来 实现 。 这 样 ， 同 时 可 以 传输 的 最 大 
数据 量 就 由 两 台 计算 机 中 窗口 较 小 者 确定 。 

每 个 TCP 数据 报 的 头 包 含 源 端口 与 目标 端口 、 顺 序号 、 校 验 和 、 窗 口 字段 、 确 认 号 和 其 他 字段 。 

。 源 端口 与 目标 端口 对 于 源 进 程 来 说 ， 用 来 确定 将 向 何 处 发 送 消息 ， 而 对 于 目标 进程 来 说 ， 

它们 被 用 来 确定 将 向 何 处 回复 消息 〈 地 址 在 IP 层 中 指定 )。 
。 当 包 在 网 络 上 传输 时 ， 它 们 可 能 是 无 序 到 达 的 (经 过 不 同 的 传送 路 径 )， 也 可 能 会 丢失 ,其 
至 重复 。 通 过 顺序 号 就 可 以 对 到 达 的 包 重 新 进行 排序 ， 检 测 是 否 有 丢 包 的 情况 发 生 。 顺 序 
号 标识 的 实际 上 是 每 个 包 的 第 一 个 字 节 的 计数 ， 而 不 是 对 应 整个 包 的 序列 号 。 

。 校 验 和 用 于 确认 包 到 达 的 时 候 是 否 被 破坏 而 不 管 通道 的 干扰 , 这 种 校 验 的 确定 度 是 很 高 的 。 
如 果 接 收 到 的 包 计算 得 到 的 校 验 和 与 传送 过 来 的 校 验 和 不 匹配 ， 那 么 这 个 包 将 会 被 丢弃 。 

。 窗口 字段 指明 当前 计算 机 的 缓冲 区 最 多 可 以 接收 多 少 字 节 的 数据 。 它 通常 随 确 认 包 一 同 

传送 。 

。 确认 《ACK) 包 有 一 个 ACK 号 ， 这 个 编号 指明 当前 顺序 上 已 经 正确 接受 到 的 字 节 数 Ot 

应 于 第 一 个 丢失 的 包 的 顺序 号 )。 

源 进程 向 目的 进程 发 送 的 数据 报 的 大 小 由 窗口 数 决定 ， 在 发 送 更 多 数据 之 前 ， 它 必须 等 待 确 
UW CACK). ACK 包 到 达 的 时 候 同时 ， 也 包含 一 个 新 的 窗口 大 小 信息 ， 通 过 这 个 信息 ， 源 进程 可 
以 知道 目标 缓冲 区 还 可 以 接收 多 少数 据 。 如 果 没 有 在 重 传 超时 RTO) 所 规定 的 时 间 内 收 到 ACK， 
源 进程 将 从 本 地 窗口 缓冲 区 中 重新 发 送 相应 的 包 。TCP/P 并 没有 指定 拥塞 控制 机 制 ， 然 而 实现 





423 


424 


296 LHD SRK HE 


TCP/IP 的 时 候 必 须 包 含 这 一 机 制 。 

虽然 TCP 是 可 靠 的 , 但 对 于 许多 实时 多 媒体 应 用 , 比如 视频 流 来 说 , 重 传 的 开销 是 非常 大 的 。 
因此 这 些 应 用 一 般 使 用 UDP。 

(2) 用 户 数 据 报 协议 (User Datagram Protocol，UDP) 

UDP 是 无 连接 的 协议 ， 因 为 被 传送 的 消息 是 一 个 数据 报 。 如 果 消 息 过 长 或 者 需要 有 担保 的 投 
递 ， 那么 这 些 工作 要 由 应 用 层 来 完成 。 从 本 质 上 说 ，UDP 仅仅 提供 了 多 路 复 用 和 通过 校 验 和 实现 
的 错误 检测 。 虽 然 UDP 的 头 中 有 指明 源 端 口号 和 目的 端口 号 的 相应 字段 ， 但 是 源 端 口号 实际 上 
是 可 选 的 ， 因 为 目的 计算 机 并 不 需要 回复 消息 (UDP 中 没有 确认 )。 

虽然 UDP 中 数据 的 传输 速度 高 于 TCP， 但 是 这 种 传输 是 不 可 靠 的 ， 特 别 是 在 一 个 拥塞 的 网 络 环 
境 中。 光纤 网 络 品质 的 不 断 提高 使 于 包 率 不 断 减少 。 在 大 多 数 实 时 多 媒体 应 用 中 《比如 视频 流 和 音频 
流 )， 迟 到 的 包 只 是 被 丢弃 。 虽 然 高 层 的 协议 可 以 控制 重新 传输 ， 流 量 控制 和 拥塞 避免 ， 但 是 为 了 有 
可 接受 的 服务 质量 QoS)， 我 们 仍然 需要 开发 更 多 实用 的 错误 隐藏 〈error concealment) 技术 。 

2， 网 络 层 : 网 际 协议 

IP 层 提供 两 个 基本 的 服务 ; 包 寻 址 和 包 分 割 。 在 任何 局 域 网 (Local Area Network, LAN) 内 ， 
点 对 点 的 消息 传送 都 可 以 很 容易 地 实现 ， 实 际 上 ，LAN 还 常常 支持 广播 。 然 而 ， 如 果 要 将 消息 发 
送 到 另 一 个 LAN 中 的 计算 机 上 的 时 候 ， 就 需要 一 个 中 介 设 备 来 转发 消息 了 。 卫 协议 提供 在 所 有 
互 连 的 网 络 中 对 计算 机 进行 全 局 寻 址 的 功能 ， 这 里 ， 每 一 个 入 网 的 计算 机 (或 设备 ) 都 被 分 配 了 
一 个 全 局 唯一 的 人 P 地址 。 

为 了 使 下 包 能 够 在 不 同 的 LAN 或 者 广域网 (Wide Area Network, WAN) 中 传输 ， 我 们 需要 
使 用 网 关 或 者 路 由 器 ， 它 们 利用 路 由 表 来 指示 消息 传送 到 目的 下 地址 。 网 关 是 一 台 位 于 LAN 边 
缘 的 计算 机 ， 它 可 以 发 送 瑟 LB LAN 网 络 接口 和 WAN 网 络 接口 ， 从 而 与 其 他 不 在 这 个 LAN 中 
的 计算 机 进行 通信 。 路 由 器 就 是 一 个 可 以 接收 包 并 把 它们 发 送 到 同类 网 络 中 相应 目的 地 址 的 设备 。 

IP 层 还 必须 把 收 到 包 的 目的 地 址 翻译 为 合适 的 网 络 地 址 。 另 外 ， 路 由 表 指 明 包 到 达 目 的 地 址 
的 最 佳 路 由 上 的 下 一 个 路 由 器 。 由 于 最 佳 路 由 会 随 着 节点 的 可 用 性 、 网 络 拥塞 和 其 他 因素 而 改变 ， 
路 由 器 必须 相互 通信 来 决定 当前 IP 组 的 最 佳 路 由 。 这 种 相互 的 通信 是 通过 互联 网 控制 报 文 协议 
CICMP) 来 实现 的 。 

IP 是 无 连接 的 ， 它 不 提供 端 到 端的 流量 控制 。 每 个 包 都 是 独立 处 理 ， 并 不 与 过 去 或 者 未 来 的 
包 发 生 联 系 。 因 此 ， 包 接收 到 的 时 候 可 能 是 无 序 的 ， 也 可 能 被 丢弃 或 者 重复 。 

当 一 个 包 要 通过 只 能 接收 较 小 包 的 网 络 的 时 候 ， 包 分 割 操作 就 必 不 可 少 了 。 在 这 种 情况 下 ， 下 
包 会 被 分 割 为 符合 要 求 的 较 小 的 包 ， 然 后 通过 网 络 发 送 到 下 一 个 中 继 段 ， 并 在 那里 重新 排序 组 装 。 

E P 当前 的 版 本 ， 也 就 是 IPv4 CIP 版 本 4) P, P 地 址 是 一 个 32 位 的 数字 ， 常 常用 点 分 十 
进 制 方式 来 表示 〈 比 如 ，128.77.149.63 = 10000000 01001101 10010101 00111111)。 这 种 32 位 寻 址 
理论 上 拥有 2” ~ 40 亿 个 地 址 ， 看 起 来 似乎 远 远 超过 需要 。 但 实际 上 ， 我 们 将 很 快 用 完 这 些 地 
址 (预计 在 2008 年 )。 

出 现 这 种 情况 并 不 仅仅 因为 个 人 电脑 和 无 线 设 备 的 迅猛 发 展 ，IP 地 址 分 配 过 于 浪费 也 是 一 大 
aA. Hani, IP 地 址 是 有 一 定格 式 的 〈 网 络 号 ， 主 机 号 )。 对 于 很 多 网 络 号 ， 其 下 使 用 的 主机 
号 的 比例 都 相对 较 小 ， 更 不 用 说 一 些 非 活动 的 主机 仍然 占用 着 它们 先前 分 配 到 的 地 址 。 

作为 一 种 应 对 可 用 IP 地 址 短缺 〈 由 于 服务 提供 商 的 限制 或 者 成 本 因素 ) 的 短期 解决 方法 ,一 
些 LAN 使 用 代理 服务 器 或 者 代理 服务 器 实现 的 网 络 地 址 翻译 化 (Network Address Translation, 
NAT) 功能 (还 有 内 容 缓存 或 者 其 他 特性 )。NAT 设备 把 LAN 从 互连网 络 中 分 离 出 来 ， 而 且 只 需 
要 一 个 IP 地 址 就 可 以 完成 LAN 中 所 有 计算 机 与 外 部 的 通信 。 LAN 中 每 一 个 计算 机 都 被 分 配 一 个 
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本 地 IP 地 址 ， 而 外 部 连接 的 网 络 是 无 法 访问 这 个 地 址 的 。NAT 设备 常常 维护 一 个 动态 NAT K, 
这 张 表 用 于 把 外 部 IP 地 址 所 用 的 通信 端口 转化 为 相应 进行 通信 的 计算 机 的 内 部 IP 地 址 。 

当 本 地 计算 机 使 用 本 地 P 地 址 发 送 一 个 IP 包 时 ， 这 个 包 将 会 经 过 NAT 设备 ， 由 NAT 把 源 
IP 地 址 转换 为 NAT 设备 对 应 的 全 局 下 地 址 。 当 一 个 下 包 到 达 NAT 设备 的 某 个 通信 端口 的 时 候 ， 
目的 地 址 将 会 按照 NAT 表 转 换 为 本 地 P 地 址 ， 这 个 包 就 可 以 被 转发 到 正确 的 计算 机 上 了 。 

1995 年 1 H, IPv6 GP 版 本 6) 由 因特网 工程 任务 组 (Internet Engineering Task Force, IETF) 
推荐 为 下 一 代 卫 〈IPng)， 记 录 RFC1752 一 一 “关于 下 一 代 IP 协议 的 推荐 标准 ”中 。IPv6 对 IPv4 
进行 了 大 量 改进 ， 采 用 128 位 的 地 址 ， 一 共 人 允许 228 =3.4x103 个 地 址 [2]。 这 必然 能 够 在 很 长 一 
段 时 间 内 不 是 永远 ) 解决 下 地 址 短缺 的 问题 。 


15.2 多 路 复 用 技术 


现代 通信 链接 通常 拥有 很 高 的 容量 ， 特 别 是 当 光 纤 网 络 出 现 以 后 更 是 如 此 。 当 链接 容量 远 远 
超出 任何 一 个 用 户 的 传输 速率 时 ， 为 了 共享 容量 ， 必 须 引 入 多 路 复 用 技术 。 

在 这 一 节 内 ， 我 们 先 分 析 基 本 的 多 路 复 用 技术 ， 接 下 来 再 对 ISDN, SONET 和 ADSL 等 现代 
网 络 进行 综述 。 


15.2.1 多 路 复 用 技术 基础 


1. MA 3384. (Frequency Division Multiplexing, FDM ) 

在 FDM 中 ， 多 个 通道 按照 它们 的 频率 来 组 织 。 打 个 比方 ,广播 和 电视 就 是 使 用 FDM 的 很 好 
的 例子 一 一 它们 通过 把 频带 分 为 多 个 通道 来 共用 有 限 的 广播 频带 带宽 。 目 前 ， 有 线 电 视 与 FDM 
数据 网 络 甚至 更 为 类 似 ， 因 为 它们 传输 的 媒介 是 相似 的 。 对 于 普通 的 声音 通道 和 电视 通道 ， 一 般 
来 说 ， 声 音 的 带宽 为 4kHz，NTSCTV 的 带宽 为 6。MHz，PAL 或 者 SECAM TV 的 带宽 为 8MHz. |425 

为 了 使 FDM 正常 工作 ， 模 拟 信 号 必须 先 按照 每 个 通道 独 有 的 载波 频率 上 进行 调制 。 这 样 ， 
信号 将 会 占用 一 个 以 为 中 心 的 带宽 B,。 接 收 器 用 一 个 已 经 按照 通道 要 求 调谐 好 的 带 通 滤波 器 来 
获取 信和 号， 然后 再 使 用 解 调 器 来 对 信号 进行 解码 。 

基本 的 调制 技术 包括 调幅 “(Amplitude Modulation，AM)、 调 频 (FM) 和 调 相 (PM)。 调 频 
与 调 相 组 合 起 来 就 是 当前 很 多 应 用 中 所 使 用 的 正 交 幅度 调制 (QAM) 技术 [1，2]。 

数字 数据 常常 使 用 模拟 信号 来 传输 。 最 典型 的 例子 就 是 用 于 在 电话 网 络 上 传输 数字 数据 的 调 
制 解 调 器 。 数 字数 据 被 调制 为 载波 信号 用 于 传输 ， 接 收 器 再 对 信号 进行 解 调 来 恢复 成 数字 数据 。 
基本 的 调制 技术 包括 幅 移 键 控 (ASK)、 频 移 键 控 (FSK) 和 相 移 键 控 (PSK)。 正 交 相 移 键 控 (QPSK) 
是 PSK 的 一 种 高 级 版 本 ， 它 使 用 90° 的 相 移 而 不 是 180” 的 相 移 [2]。 和 QAM 一 样 ， 它 也 可 以 把 
相位 和 幅度 组 合 起 来 ， 这 样 就 可 以 在 每 个 副 载波 频率 上 传送 多 个 位 了 。 

2.， 波 分 多 路 复 用 ( Wavelength Division Multiplexing, WDM ) 

WDM 是 FDM 的 是 一 种 变形 ， 它 在 光纤 传输 中 特别 有 用 。 从 本 质 上 说 ， 光 线 用 不 同 波长 代 
表 通 道 。 在 源 端 ， 光 线 被 组 合 起 来 并 在 同一 根 光纤 内 传输 ， 在 接收 端 ， 光 线 又 重新 被 拆 分 。 光 线 
的 组 合 和 拆 分 是 由 光纤 设备 (如 ADM) 来 完成 的 ， 光 纤 设备 的 可 靠 性 和 效率 都 高 于 普通 电路 。 
由 于 每 条 光纤 的 带宽 都 非常 高 〈 每 个 频带 大 于 25 DLR), MA WDM 的 容量 是 巨大 的 ， 具 有 
大 量 可 复 用 的 通道 。 这 样 一 来 ， 光 纤 主干 总 计 的 码 率 将 有 可 能 达到 数 万 亿 比 特 每 秒 。 

WDM 有 两 种 变型 : 

。 稠密 波 分 多 路 复 用 (Dene WDM, DWDM) ”使 用 了 间隔 较 密 的 波长 ， 因 而 比 WDM 可 

以 使 用 更 多 的 通道 例如， 大 于 32 个 )。 
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。 宽带 波 分 多 路 复 用 (Wideband WDM, WWDM) 它 人 允许 波长 范围 较 大 的 彩色 光 《〈 例 如 ， 
长 波段 的 1 310~1 557nm， 短 波 范围 的 850nm) 的 传输 ， 从 而 获得 比 WOM 更 大 的 通道 容量 。 

3， 时 分 多 路 复 用 (Time Division Multiplexing, TDM ) 

前 面 描述 过 ，FDM 更 适合 模拟 信号 ， 对 于 数字 计算 机 网 络 就 不 太 适 用 了 。 而 TDM 就 是 一 种 
直接 多 路 复 用 数字 数据 的 技术 。 如 果 源 数据 是 模拟 的 ， 它 必须 先进 行 数字 化 并 转化 为 脉冲 编码 调 
fi] (PCM) 样本 (如 第 6 章 所 述 )。 

在 TDM 中 ， 多 路 复 用 是 在 时 间 维 (1) EHTK. Xm (m>1) 个 通道 ， 需 要 使 用 多 个 缓冲 
区 。 在 一 帧 数据 形成 之 前 ,在 m 个 循环 的 每 一 个 时 隙 中 都 会 从 一 个 缓冲 区 中 取出 一 位 (或 者 一 字 
节 )。TDM 帧 形成 后 将 会 被 传输 ， 然 后 在 接收 端 重新 分 离 。 

上 面 描述 的 方案 称 作 同步 TDM， 因 为 在 这 种 方案 中 ， 每 个 缓冲 区 都 被 依次 扫描 并 同等 对 待 。 
如 果 在 某 一 个 时 队 ， 某 些 源 〈 相 应 的 缓冲 区 ) 没有 数据 要 传输 ， 这 个 时 阶 就 浪费 了 。 异 步 TDM 
(或 者 统计 TDM) 根据 这 种 情况 来 收集 各 个 缓冲 区 的 信息 。 它 只 在 上 (hem) 个 时 隙 中 去 扫描 大 
个 可 能 会 有 数据 发 送 的 缓冲 区 .。 在 载波 数据 率 相同 的 情况 下 ， 异 步 TDM 可 以 达到 更 高 的 吞吐 量 。 
不 过 ， 由 于 源 地 址 同时 也 必须 和 数据 一 起 传输 ， 使 分 离 能 够 正确 进行 ， 因 此 这 种 方法 是 有 一 定 的 
额外 开销 的 。 

一 般 来 说 ， 电 话 通道 上 的 语音 数据 的 带宽 为 4kHz。 按 照 奈奈 斯 特定 理 ， 为 了 使 数字 化 效果 更 
好 ， 每 秒 需要 有 8 000 个 样本 。 这 样 ， 每 个 样本 间 的 间隔 为 125hs。 每 一 个 通道 每 个 样本 可 以 传 
送 8 位 数据 ， 这 样 每 个 语音 通道 传输 数据 率 〈 包 括 数 据 和 控制 位 ) 为 8x8 000 = 64 kbps. 

在 北美 和 日 本 ,Tl 载波“ 就 是 一 种 有 24 个 语音 通道 ( 即 24 个 时 隙 ) 的 同步 TDM， 其 中 23 
个 通道 用 于 传送 数据 ， 最 后 1 个 通道 用 于 同步 。 每 个 TI1 帧 有 8x24 = 192 位 ， 外 加 1 位 用 于 分 割 
帧 [1 ，2]。 这 样 ， 总 计 的 数据 传输 率 就 是 每 12Shs 193 位 ， 也 就 是 193 位 /样本 x8 000 样本 / 秒 = 
1.544Mbps. 

4 个 Tl 载波 还 可 以 进一步 复 用 生成 T2。 注意 ，T2 总 的 数据 传输 率 为 6.312Mbps， 大 于 4x1.544 
= 6.176Mbps， 这 是 因为 T 需要 更 多 的 分 割 位 和 控制 位 。 按 照 同 样 的 原理 ， 可 以 构造 T3 和 T4 

ITU-T 定义 了 类 似 的 载波 格式 ， 第 一 级 CEL) 从 2.048Mbps 开始 ， 这 一 级 里 每 一 帧 由 32 个 
时 隙 组 成 : 8x32x8 000 = 2.048Mbps。 在 32 个 时 隙 中 ，2 个 用 于 分 割 帧 和 同步 帧 ， 其 余 30 个 是 数 
据 通道 。 每 高 一 级 ， 如 E2，E3 等 等 ， 复 用 的 通道 数 变 为 原来 的 4 倍 。 表 15-1 比较 了 两 种 TDM 
载波 标准 。 

215-1 TDM 载波 标准 的 比较 


274.176 





15.2.2 ”综合 业务 数字 网 络 
一 个 世纪 以 来 ， 用 于 模拟 声音 传输 的 公共 交换 式 电话 系统 一 直 支 持 普 通 老 式 电话 服务 (Plain 


O Ti 载波 的 格式 称 为 DS1，T2 的 载波 格式 称 为 DS2， 以 此 类 推 。 非 严格 地 说 ， 这 两 种 表示 方法 (TADS) 通常 可 以 
互 换 。 
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Old Telephone Service, ROTS )。 在 20 世纪 80 年代,ITU-T 开始 开 发 ISDN(Integrated Services Digital 
Network， 综 合 业务 数字 网 络 ) RESALE ee ON, FRO ID, BAIRD RPO, 
远程 会 议 )， 在 这 些 服务 中 ， 数 字数 据 、 语 音 ， 其 至 视频 (例如 在 视频 会 议 中 〉 都 能 够 传输 。 
默认 情况 下 ，ISDN 38% # ISDN. ITU-T 随后 开发 了 宽带 ISDN (B-ISDN)。 它 默认 的 交换 技 
术 是 异步 传输 模式 (Asynchronous Transfer Mode, ATM) [3]， 稍 后 对 其 进行 讨论 。 
ISDN 定义 了 多 种 全 双 工 通道 类 型 : 
。B 通道 ”每 个 通道 64kpbs。B 通道 用 于 数据 传输 。 大 多 数 情况 下 ， 它 们 是 电路 切换 的 ， 但 
是 它们 也 支持 包 交 换 。 如 果 需 要 的 话 ，B 通道 可 以 很 容易 地 替代 POTS. 
。DD 通道 ”16kpbs 或 者 64kpbs. D 通道 关心 的 是 呼叫 建立 、 上 呼叫 控 制 (呼叫 转发 、 上 呼叫 等 待 
等 )， 以 及 网 络 维护 。 拥 有 一 个 D 通道 的 好 处 是 可 以 在 B 通道 传输 数据 时 实时 地 在 D 通道 
内 进行 控制 和 维护 。 
接 下 来 看 一 下 ISDN 的 主要 规范 : 
。 它 采用 同步 TDM， 其 中 上 面 提 到 的 通道 被 复 用 。 
。 根 据 数据 和 订阅 的 速率 ， 有 两 种 接口 可 以 供用 户 使 用 。 
， 基 本 速率 接口 提供 两 个 B 通道 和 一 个 D 通道 (16kbps)， 共 有 144kpbs (64x2+16) 被 
复 用 ， 并 在 一 个 192kpbs 的 链 路 上 传输 。 
> 初级 速率 接口 在 北美 和 日 本 使 用 的 版 本 提供 23 个 B 通道 和 一 个 D 通道 (64kpbs), 而 在 
欧洲 使 用 的 版 本 则 提供 30 个 B 通道 和 2 个 D 通 道 (64kpbs)。23 个 B 和 1 个 DD 刚好 就 
是 T1， 因 为 TI 有 24 个 时 险 ， 并 且 数 据 传输 率 为 24 x 64kpbs = 1544Mbps; 而 30 个 B 
和 2 个 D 就 对 应 于 El，E1 有 32 SNR CHP 30 个 为 用 户 通 道 )， 并 且 数 据 传 输 率 为 
32 x 64 = 2.048 kbps。 
由 于 窄带 ISDN 的 传输 率 较 低 且 成 本 较 高 ， 因 此 它 并 不 能 满足 数据 与 多 媒体 网 络 的 需要 。 对 
于 某 些 家 用 电脑 或 者 inteme 用 户 来 说 ， 它 已 经 被 接 下 来 要 讨论 的 电缆 调制 解 调 器 和 非 对 称 数 字 
用 户 线 (ADSL) 所 取代 。 


15.2.3 同步 光纤 网 络 


同步 光纤 网 络 (Synchronous Optical NETwork, SONET) 最 初 是 一 个 Bellcore 开发 的 标准 ， 
当时 是 为 了 使 光纤 支持 比 T3 更 高 的 数据 传输 率 。 后 来 ，SONET 标准 由 ANSI 调整 并 批准 ， 作 为 
ANSI T1.105, T1.106 和 T1.107. SONET 使 用 电路 切换 和 同步 TDM. 428 

在 光纤 网 络 中 ， 电 子 信号 必须 转换 为 光 信 号 才能 进行 传输 ， 在 接收 端 再 转换 回来 。 相 应 地 ， 
SONET 对 电子 信和 号 使 用 同步 传输 信号 (Synchronous Transport Signal，STS )， 对 光 信 和 号 使 用 光 载 
波 器 (Optical Carrier, OC). 

一 个 STS-T (OC-1) WAA 810 个 TDM 字 节 。 每 个 帧 传输 时 间 为 12$Sus， 也 就 是 每 秒 8 000 
帧 ,所 以 数据 传输 率 就 是 810x8x8 000 = 51.84 Mbps。 其 他 的 STS-NCOC-N) 信 和 号 都 是 STS-1(OC-1) 
信和 号 的 进一步 复 用 。 例 如 , 三 个 复 用 的 STS-1(OC-1) 信 号 , 为 每 个 STS-3(OC-3) 一 是 155.52Mbps。 

ITU-T 并 没有 采用 SONET， 而 是 开发 了 一 种 称 为 同步 数字 体系 (SDH) 的 类 似 标 准 。SDH 
使 用 同步 传输 模块 (STM) 技术 。STM-1 是 SDH 中 级 别 最 低 的 ， 它 对 应 于 SONET 中 的 STS-3 
(OC-3)。 

# 15-2 列 出 了 SONET 的 电子 和 光学 级 别 以 及 SDH 中 对 应 的 级 别 和 传输 率 。 在 所 有 列 出 的 
RAH, OC-3 (STM-1)、OC-12 (STM-4)、OC-48 (STM-16) 和 OC-192 (STM-64) 是 最 常 使 
用 的 。 
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# 15-2 SONET 和 SDH 中 的 等 价 级 别 


OC-1 一 


STM-1 





















SONET 电子 级 
STS-1 
STS-3 
STS-9 

STS-12 
STS-18 
STS-24 
STS-36 
STS-48 
STS-96 
STS-192 


有 效 载荷 率 (Mbps) 
50.112 
150.336 
451.008 
601.344 
902.016 
1202.688 
1804.032 
2405.376 
4810.752 

9621.504 





15.2.4” 非 对 称 数 字 用 户 线路 


非 对 称 数字 用 户 线路 (Asymmetric Digital Subscriber Line, ADSL) 是 电话 工业 界 对 最 后 一 公 
里 (为 每 个 家 庭 提供 快速 网 络 服务 ) 挑战 的 回应 。 它 采用 了 相对 较 高 的 下 行 数据 传输 率 〈 从 网 络 
到 用 户 ) 和 较 低 的 上 行 数 据 传 输 率 〈 从 用 户 到 网 络 )， 因 此 它 是 不 对 称 的 。 

ADSL 利用 已 有 的 电话 双 绞 线 来 传输 正 交 幅度 调制 QAM) 数字 信号 。ADSL 线路 上 的 信和 号 
带宽 被 提高 到 1MHz 甚至 更 高 ， 而 不 是 传统 电话 线 上 4KHz 的 音频 信号 。 

ADSL 使 用 FDM iD SRSA) 来 复 用 三 个 通道 : 

。 位 于 高 端 频谱 的 高 速 (1.5~9Mbps〉 下 行 通道 。 

。 中 速 (16~640kbps〉 的 双 工 通道 。 

。 位 于 频谱 低 端 © (接近 DC, 0~4kHz) 的 POTS 通道 。 

这 3 个 通道 都 可 以 被 划分 为 本 Hz 的 子 通道 〈 例 如 ，256 个 子 通道 组 成 1MHz 的 下 行 通道 )。 
这 些 子 通道 的 复 用 方式 依然 是 FDM。 

由 于 信号 (特别 是 接近 或 者 就 是 IMH 的 高 频 信 和 号 ) 在 双 绞 线 上 会 很 快 衰减 ， 并 且 随 着 线路 长 度 
增加 噪声 不 断 增 大 , 在 线路 到 达 一 定 距 离 后 ， ++ 
(GLC BME BITRATE VRE. 2153 -OO EAAERRRN ADSL 的 最 大 传输 中 元 









给 出 了 在 不 考虑 桥接 效应 的 前 提 下 ，ADSL E R 

使 用 普通 的 铜 芯 双 绞 线 时 的 距离 限制 情况 。 - 
ADSL 的 关键 技术 是 离散 多 音频 - 

(Discrete Multi-Tone，DMT)。 为 了 在 可 能 存 som 

在 噪声 的 通道 内 更 好 地 传输 (上 行 或 下 行 )， 


DMT 调制 解 调 器 先 向 每 个 子 通道 发 送 测试 信号 。 然 后 就 可 以 计算 信 曲 比 ， 来 动态 决定 向 每 个 子 
通道 发 送 的 数据 量 。 信 噪 比 越 高 ， 发 送 的 数据 越 多 。 从 理论 上 说 ，256 个 下 行 子 通道 (每 个 子 通 
道 的 传输 速率 都 可 以 超过 60kpbs) 的 总 的 数据 传输 率 将 大 于 15Mbps。 实 际 上 ， 在 目前 的 技术 条 
件 下 ，DMT 只 能 达到 1.5~9Mbps. 

表 15-4 提供 了 各 种 数字 用 户 线路 (xDSL) 的 简要 历史 。DSL 对 应 于 基本 速率 ISDN 服务 。 
HDSL 是 在 低 带宽 〈196kHz) 条 件 下 达到 T1 (RB E1) 的 传输 速率 [2]。 然 而 ， 它 需要 两 条 双 绞 
线 来 达到 1.544Mbps 的 速率 ， 而 达到 2.048Mbps 则 需要 三 条 双 绞 线 。SDSL 在 一 条 双 绞 线 上 提供 


O ” 可 以 用 一 个 ISDN 通道 替代 低 或 中 速 的 通道 。 
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T5 HDSL 同样 的 服务 。VDSL 是 一 个 仍 在 发 展 中 的 标准 ， 它 是 xDSL 的 未 来 形式 。 
表 15-4 数字 用 户 线 系统 的 历史 


1.5 to 9Mbps 
不 对 称 数 字 用 户 线 
16 to 640kbps 


re | 
超 高 数据 率 数字 用 户 线 
1.5 to 2.3Mbps 
15.3 LAN 和 WAN 
局 域 网 CLAN) 局 限 在 一 个 小 的 地 理 区 域 里 面 ， 通 常 只 包含 较 少 量 的 计算 机 。 广 域 网 WAN) 


指 跨越 城市 和 国家 的 网 络 。 在 LAN 和 WAN PE, 有 时 候 会 用 到 城 域 网 (Metropolitan Area Network, 
MAN) 的 概念 。 
15.3.1 局 域 网 
大 多 数 LAN 使 用 广播 技术 。 它 们 都 毫 无 例外 地 使 用 公用 介质 。 因 此 ， 介 质 访问 控制 是 一 个 
重要 的 问题 。 
IEEE 802 委员 会 提出 了 LAN 的 IEEE 802 参考 模型 。 由 于 OSI 参考 模型 的 第 3 层 及 以 上 的 层 
可 以 供 LAN、MAN 或 WAN 使用， 因此 IEEE 802 主要 面向 底下 的 两 层 一 一 物理 层 和 数据 链 路 层 
进行 开发 。 特 别 地 ， 数 据 链 路 层 的 功能 有 所 增强 ， 并 且 被 划分 为 两 个 子 层 ; 
。 介 质 访问 控制 (MAC) 层 ” 这 一 层 在 传输 和 接收 的 时 候 负 责 装 配 以 及 分 解 帧 ， 执 行 寻 址 和 
错误 修复 ， 并 控制 对 公用 物理 介质 的 访问 。 
。 逻辑 链 路 控制 LLO RB ”这 一 层 提供 流量 控制 、 错 误 控制 和 MAC 层 寻 址 。 它 同时 扮演 
与 高 层 之 间接 口 的 角色 。LLC 在 层次 上 要 高 于 MAC. 
下 面 是 一 些 现 有 的 IEEE 802 附属 委员 会 和 他 们 负责 的 领域 : 
。 802.1 ($E LAN 协议 ) ”802.X 标准 与 OSI 参考 模型 的 关系 ，LAN 之 间 的 互 连 和 管理 。 
。802.2 (LLC) ”逻辑 链 路 控制 (LLC) 的 一 般 标准 。 
© 802.3 CULAR) ”以 太 网 的 介质 访问 控制 (CSMA/CD〉 和 物理 层 规范 。 
© 802.5〈 令 牌 环 ) 令 牌 环 的 介质 访问 控制 和 物理 层 规范 。 
。802.9 介质 访问 控制 和 物理 层 上 关于 综合 业务 的 LAN 接口 。 
。802.10〔 安 全 性 ) ”能 与 其 他 IEEE 802 标准 共同 使 用 的 LAN/MAN 安全 性 措施 。 
。802.11《〈 无 线 LAN) KABRA (WLAN) 的 介质 访问 方法 和 物理 层 规范 。 
。802.14〈 基 于 有 线 电视 的 宽带 通信 网 络 ) “有线 电视 上 多 媒体 服务 的 双向 传输 标准 协议 ， 
如 混合 光纤 同 轴 CHybrid FiberCoax, HFC) 电缆 调制 解 调 器 和 电缆 网 络 。 
。802.15〔 无 线 PAN) ”无线 个 人 区 域 网 络 (WPAN) 的 访问 方法 和 物理 层 规范 。 个 人 区 域 
网 络 (PAN) Bmw A 10 米 这 个 数量 级 。 
e 802.16 (HPTR) ”宽带 无 线 网 络 的 访问 方法 和 物理 层 规范 。 
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L 以太 网 ` 

以 太 网 是 一 个 包 交 换 的 总 线 网 络 ， 它 是 目前 最 流行 的 LAN。 截 止 到 1998 年 ， 以 太 网 的 普及 
率 达 到 了 85%。 发 送 消息 的 时 候 ， 接 收 者 的 以 太 网 地 址 会 附 在 消息 上 ， 而 消息 会 被 发 送 到 总 线 上 
的 所 有 站 点 上 。 只 有 目的 计算 机 会 接收 这 个 消息 ， 而 其 他 计算 机 将 忽略 该 消息 。 

网 络 上 的 介质 访问 控制 的 问题 可 以 由 载波 侦 听 多 路 访问 /冲突 检测 CCSMA/CD) 来 解决 。 需 
要 发 送 消息 的 站 点 首先 要 监听 网 络 〈 载 波 侦 听 )， 一 直到 网 络 上 没有 传输 为 上 。 显 然 ， 有 可 能 出 
现 多 个 站 点 等 待 ， 然 后 同时 发 送 消 息 的 情况 ， 这 样 就 会 出 现 冲 突 。 在 传输 帧 的 时 候 ， 站 点 比较 接 
收 到 的 信号 和 发 送 的 信号 。 如 果 它 们 不 一 样 ， 则 检测 到 冲突 。 一 旦 检测 到 冲突 ， 这 个 站 点 就 会 停 
止 发 送 这 一 帧 ， 随 机 等 待 一 段 时 间 后 重新 传输 。 

以 太 网 的 一 种 非常 好 的 传输 介质 是 同 轴 电 缆 〈 或 者 新 一 代 的 光纤 )， 但 是 也 可 以 使 用 双 绞 线 。 
因为 它们 其 实 就 是 电话 线 ， 在 办 公 楼 或 者 家 中 已 经 有 这 样 的 线 ， 因 而 不 需要 重新 安装 。 

有 时 候 ， 人 们 会 使 用 星 型 LAN。 在 这 种 网 络 中 ， 所 有 的 站 点 都 直接 连接 到 一 个 集线器 ( hub) 
三 ， 它 可 以 帮助 解决 传输 质量 低 的 问题 。Hub 是 一 个 活跃 的 设备 ， 扮 演 中 继 器 的 角色 。 每 当 它 从 
一 个 站 点 接收 到 信号 ， 就 将 其 复制 ， 以 使 其 他 的 站 点 都 能 够 接收 。 从 逻辑 上 说 ， 它 仍然 是 一 个 总 
线 型 网 络 ， 虽 然 物理 上 仍 是 一 个 星 型 网 络 。 

普通 的 以 太 网 的 最 大 传输 速率 为 19Mbps。 对 于 10Mps 的 LAN，10BASE-T 使 用 的 无 屏蔽 的 
双 绞 线 最 大 有 效 距离 为 100m， 而 10BASE-F 中 使 用 光纤 的 最 大 有 效 距 离 可 以 达到 2 千 米 。 

快速 以 太 网 (也 称 为 100BASE-T) 的 最 大 传输 率 为 100Mbps ”， 并 与 以 太 网 完全 兼容 。 确实， 
通过 交换 机 (不 是 Hub) 混用 100BASE-T 和 10BASE-T 实在 是 太 普 遍 了 。 也 就 是 说 ， 服 务 器 和 
100BASE-T 的 交换 机 之 间 连 接 100BASE-T 链 路 ,而 交换 机 和 工作 站 之 间 是 多 个 10BASE-T 链 路 。 
由 于 交换 机 能 够 同时 处 理 多 个 通信 ， 因 此 所 有 的 工作 站 最 高 都 能 够 以 10 Mbps 的 速率 进行 通信 。 

2. SR 

顾名思义 ， 令 牌 环 上 的 站 点 连接 成 一 个 环 型 拓扑 结构 。 数 据 帧 按照 同一 个 方向 在 环 上 传输 ， 
并 可 以 被 所 有 站 点 读 取 。 如 果 站 点 实际 上 《物理 上 ) 都 连接 到 一 个 Hub 上 ， 那 么 这 种 环 状 结构 就 
只 是 逻辑 上 的 存在 了 ， 这 里 Hub 会 重复 并 中 继 “ 环 ”上 的 信和 号 。 

在 这 个 环 空闲 的 时 候 ， 一 个 叫做 令 牌 的 小 帧 将 在 环 上 循环 传播 。 一 个 站 点 S 要 想 开 始 传输 ， 
则 必须 等 到 令 牌 到 达 。 源 站 点 S 这 时 就 会 占有 这 个 令 牌 ， 并 将 它 转化 为 数据 帧 的 前 端 ， 接 下 来 这 
个 帧 就 会 在 环 上 传输 并 被 目的 站 点 接收 。 数 据 帧 会 继续 在 环 上 传输 直到 返回 源 站 点 $ 为 止 ，S 将 
令 牌 释放 并 把 它 重 新 放 回 到 环 上 。 

我 们 通过 只 允许 一 个 令 牌 来 控制 对 共享 介质 的 访问 ， 因 此 ， 这 里 不 会 出 现 冲 突 。 在 默认 情况 
下 ， 环 体现 了 转盘 的 思想 。 每 当 令 牌 被 释放 ， 下 一 个 站 点 就 会 得 到 它 ， 以 此 类 推 。 此 外 ， 也 可 以 
应 用 多 优先 级 策略 来 控制 共享 访问 ， 即 给 定 优先 级 的 站 点 如 果 可 以 获取 与 其 相当 或 者 较 低 优先 级 
的 令 牌 ， 则 可 以 开始 传输 帧 ;否则 ， 它 只 能 预约 并 等 待 。 

使 用 非 屏 蔽 双 绞 线 的 令 牌 环 的 传输 速率 为 4Mbps 或 者 16Mbps。4Mbps 的 令 牌 环 按照 上 述 方 
法 来 管理 令 牌 。 在 16Mbps 的 令 牌 环 中 ， 源 站 点 一 发 送出 数据 帧 ， 就 会 释放 令 牌 。 这 种 方法 通过 
让 多 个 帧 同时 在 环 上 传输 来 提高 环 的 利用 率 。 目 前 已 经 有 新 的 技术 实现 了 100Mbps 的 令 牌 环 [2]， 
而 1998 年 的 JEEE 802.5v 则 是 千 兆 令 牌 环 的 一 种 可 行 性 研究 。 

3. 光纤 分 布 式 数 据 接 口 (Fiber Distributed Data Interface, FDDI ) 

FDDI 是 从 最 初 的 令 牌 环 基础 上 发 展 而 来 。FDDI 的 介质 访问 控制 (MAC) 与 IEEE 802.5 中 
为 令 牌 环 规定 的 MAC 方法 十 分 相似 。 


O 下 一 代 的 以 太 网 将 是 千 兆 以 太 网 和 10G 以 太 网 ， 这 些 内 容 将 在 后 面 讨论 。 
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FDDI 是 双星 型 拓扑 结构 ， 其 中 主 环 用 于 数据 传输 ， 而 辅助 环 用 来 容错 [5]。 如 果 两 个 环 中 都 
检测 到 错误 ， 它 们 能 够 合并 起 来 像 一 个 环 一 样 工 作 。 

FDDI 的 码 率 为 100Mbps。 由 于 它 的 传输 率 相对 较 快 ， 所 以 源 站 点 在 发 送 数据 帧 之 前 只 是 将 
令 牌 吸收 (而 不 是 像 在 最 初 的 令 牌 环 中 那样 将 令 牌 转换 为 数据 帧 的 一 部 分 )。 

在 FDDI 中 ， 一 个 站 点 一 旦 获取 了 令 牌 ， 它 会 获得 一 段 时 间 ， 在 这 段 时 间 内 它 可 以 尽量 多 地 
发 送 数据 帧 。 而 且 ， 一 旦 数据 帧 发 送 完毕 ， 令 牌 就 会 被 释放 【〈 提 前 令 牌 释放 )。 

FDDI 网 络 最 远 可 以 跨越 100km 的 距离 。 它 最 多 可 以 支持 $00 个 站 点 ， 只 要 临近 站 点 的 距离 
不 超过 2 千 米 即 可 。 因 此 ，FDDI 主要 作为 LAN 或 者 MAN 的 骨干 网 。 

FDDI 既 支 持 同 步 模式 也 支持 异步 模式 [5]。 同 步 模式 下 可 以 做 到 带宽 预 留 ， 并 保证 数据 传输 
达到 同步 容量 。 异 步 模 式 与 令 牌 环 协议 比较 相似 。FDDI-2 还 另外 支持 一 种 模式 一 一 等 时 模式 [5]， 
这 种 模式 下 ， 网 络 是 分 时 的 ， 每 台 计 算 机 都 能 得 到 一 个 固定 的 时 间 片 。 这 样 ，FDDI 就 能 为 延迟 
敏感 的 应 用 (比如 音频 和 视频 ) 提供 等 时 服务 ， 而 对 网 络 中 的 其 他 应 用 提供 同步 和 异步 服务 了 。 
15.3.2 广域网 

广域网 (WAN) 通常 指 跨越 城市 和 国家 之 间 的 网 络 。 它 们 都 使 用 了 某 种 类 型 的 交换 技术 ， 而 
不 是 广播 。 

交换 技术 

电路 交换 和 包 交 换 是 两 种 常用 的 交换 技术 。 而 后 者 还 有 上 帧 中 继 和 信 元 中 继 两 种 变 体 。 

。 电 路 交换 “公共 交换 电话 网 络 (PSTN) 就 是 电路 交换 的 一 个 例子 ， 在 这 个 网 络 中 ， 必 须 建 

立 一 个 端 到 端的 电路 〈 这 种 情况 下 是 双 工 ) 来 用 于 保证 连接 期 间 的 带宽 。 虽 然 这 个 网 络 最 
初 是 用 于 语音 通信 的 ， 但 是 它 也 可 以 用 于 数据 传输 。 它 是 罕 带 ISDN 的 基础 (参见 15.2.2 
节 )。 为 了 解决 多 用 户 和 可 变 的 传输 率 的 问题 ， 它 采用 FDM 或 者 同步 TDM 复 用 。 

如 果 用 户 需要 较 固 定 的 数据 率 连 接 ， 如 恒定 速率 的 视频 传输 ， 则 电路 交换 就 有 优势 。 但 对 一 
般 意义 上 的 多 媒体 传输 ， 特 别 是 可 变 〈 有 时 还 是 突变 ) 数据 率 的 情况 下 ， 它 的 效率 就 比较 低 。 

© ASH ”几乎 所 有 的 数据 网 络 都 使 用 包 交 换 技 术 ， 在 这 些 网 络 中 ， 传 输 率 常常 是 变化 甚至 

钴 发 的 。 在 传输 前 ,数据 被 分 成 一 些小 的 包 ， 通常 为 1000 字 节 或 者 更 少 。 每 个 包头 都 携带 
必要 的 控制 信息 ， 比 如 目的 地 址 、 路 由 等 。 包 交换 最 常 使 用 的 协议 是 X.25。 

通常 有 两 种 方法 用 来 完成 包 交 换 和 建立 路 由 : 数据 报 和 虚拟 电路 。 在 数据 报 中 ， 每 个 包 都 
单独 作为 一 个 数据 报 。 但 因为 传输 前 并 不 规定 好 路 由 ， 因 此 包 可 能 会 丢失 或 者 乱 序 到 达 。 
就 像 在 TCP/IP 中 一 样 ， 由 接收 站 点 负责 检测 和 修复 错误 。 

在 虚拟 电路 中 ， 路 由 通过 路 由 上 所 有 节点 的 请 求 和 接收 来 预先 决定 。 之 所 以 称 为 “电路 ”， 
是 因为 路 由 是 固定 的 〈 一 旦 协商 好 )， 并 在 整个 传输 过 程 中 不 变 ; 而 它 又 是 “虚拟 的 ” 是 因为 这 
个 “电路 ”只 是 逻辑 上 的 而 不 是 专用 的 ， 并 且 从 同一 个 源 传输 到 同一 个 目的 的 包 可 以 通过 不 同 的 
“电路 ”来 实现 。 虚 拟 电路 中 序列 化 〈 包 排序 ) 相对 比较 容易 。 检 测 到 错误 的 时 候 通常 会 要 求 重 传 。 

包 交 换 在 网 络 比较 拥塞 的 时 候 效率 比较 低 ， 并 且 会 因为 大 量 包 延 迟 时 间 过 长 和 丢失 而 使 它 变 
得 很 不 可 靠 。 

。 帧 中 继 ”现代 高 速 链 路 的 错误 率 很 低 。 在 光纤 中 ,错误 率 可 以 低 至 10 这 个 数量 级 。 这 样 

一 来 , 就 没有 必要 像 普 通 包 交换 技术 (X.25) 那样 ， 在 每 个 包 中 添加 许多 位 以 用 于 错误 检测 。 

与 X.25 一 样 ， 帧 中 继 在 数据 链 路 控制 层 工作 。 帧 中 继 对 X.25 作出 了 如 下 改变 : 

。 错误 检测 的 削减 ”没有 更 多 的 确认 ， 没 有 更 多 的 跳 到 跳 的 流量 控制 和 错误 控制 。 而 且 ， 
端 到 端的 流量 控制 和 错误 控制 可 以 在 高 层 实现 。 

。 层 数 减少 ”多 路 复 用 和 交换 式 虚 拟 电 路 从 X.25 中 的 第 三 层 改 到 了 第 二 层 。X.25 中 的 第 
三 层 被 去 掉 了 。 





433 


434 


304 BERD BK PUK 


帧 中 继 基本 上 是 包 交 换 的 一 个 简化 版 本 ， 只 提供 了 最 少 的 服务 。 帧 长 度 最 长 可 达到 1 600 F 
节 。 如 果 接 收 到 坏 帧 ， 则 把 其 丢弃 。 因 此 ， 帧 中 继 的 传输 率 大 幅 提高 ， 位 于 T1〈1.53Mbps) 和 T3 
(44.7Mbps) 之 间 。 

。 信 元 中 继 (ATM) ，” 非 同步 传输 模式 采用 长 度 固定 并 且 比较 小 的 包 ， 这 种 包 称 为 信 元 。 因 

此 ，ATM 也 称 为 信 元 中 继 。 

如 图 15-2 所 示 ， 较 小 的 包 有 助 于 减少 ATM 网 络 中 的 延迟 时 间 。 在 图 15-2a 中 ， 当 一 个 黑色 
的 包 紧 跟着 一 个 正常 大 小 的 包 (如 1KB) 后 面 到 达 ， 它 必须 等 待 前 一 个 包 传输 完成 ， 这 就 引起 了 
序列 化 延迟 。 如 果 包 ( 信 元 ) 比较 小 ， 如 图 15-2b 所 示 ， 黑 色 的 信 元 需要 等 待 的 时 间 就 会 缩短 。 
这 样 可 以 显著 提高 网 络 的 吞吐 量 , 特别 有 利于 实时 多 媒体 应 用 。ATM 被 认为 有 潜力 达到 几 百 〈 几 
FO) Mbps 的 传输 率 。 

图 15-3 从 码 率 和 复杂 度 角 度 比较 了 上 述 四 种 交换 技术 。 从 图 中 可 以 看 出 ， 电 路 交换 最 简单 ， 
并 且 提 供 了 持续 〈 固 定 ) 的 传输 率 ， 而 包 交 换 恰恰 相反 。 


























ERED 
EBC Žž ) 
a j 固定 数据 率 
a) 普通 包 交换 网 络 中 的 序列 化 延迟 ”电路 交换 n 
信 元 中 继 (ATM) 杂 
€ 帧 中 继 度 
apapap 1€ 包 交换 
(on an en an) ~ 
可 变数 据 率 











b) 信 元 网 络 中 的 低 延 迟 
图 15-2 等 待 时 间 图 15-3 不 同 交换 技术 之 间 的 比较 


15.3.3 ”异步 传输 模式 

从 20 世纪 80 年 代 开 始 ， 数 据 通 信和 多 媒体 服务 语音、 视频 等 ) 的 迅速 增长 给 电信 网 络 带 
来 了 极 大 挑战 。 由 光纤 带 来 的 带宽 增加 ,使 得 宽带 ISDN (B-ISDN) 成 为 事实 。 到 1990 年 , ITU-T 
(原来 的 CCITT) 采用 同步 光纤 网 络 / 同 步 数 字体 系 “SONET/SDH) 作 为 B-ISDN 的 基础 。 由 于 
SONET 使 用 电路 交换 技术 ， 并 且 只 指定 数据 传输 和 多 路 复 用 的 规范 ， 人 们 需要 一 个 新 的 交换 技 
术 标 准 。 

ATM 的 速度 较 高 并 且 延 迟 较 低 , 它 的 可 操作 版 本 达到 了 2.5Gbps (OC-48). ATM 在 支持 各 种 
各 样 的 技术 方面 也 显得 比较 灵活 ， 这 些 技 术 包 括 帧 中 继 ( 狼 发 )、IP 以 太 网 、xDSL、SONET/SDH 
和 无 线 网 络 等 。 此 外 ， 它 还 能 够 保证 预先 定义 的 服务 质量 (QoS)。 因 此 ，ATM 被 选 为 B-ISDN 
的 交换 技术 。 

起 初 ，ATM 用 于 WAN， 特 别 是 作为 主干 。 现 在 ， 它 也 用 于 LAN 的 应 用 中 。 

1. ATM 的 信 元 结构 

ATM 信 元 〈cell) 有 固定 的 格式 ， 它 们 的 大 小 为 53 字 节 ， 其 中 前 5 字 节 为 信 元 头 ， 接 下 来 的 
48 个 字 节 为 有 效 载 荷 。 

ATM 层 有 两 种 接口 : 用 户 - 网 络 接口 (User-Network Interface, UNI) 在 本 地 ， 位 于 用 户 和 
ATM 网 络 之 间 ， 而 网 络 - 网 络 接口 (Network-Network Interface, NNI) 位 于 ATM 交换 机 之 间 。 

图 15-4 说 明了 ATM UNI 信和 元 头 的 结构 。 信 元 头 由 一 个 4 位 的 通用 流量 控制 (GFC) 开始 ， 
GFC 在 本 地 用 户 网 络 级 别 控制 进入 网 络 的 流量 。 接 下 来 是 8 位 的 虚拟 路 径 标识 符 (VPI) 和 16 位 
的 虚拟 通道 标识 符 “VCI)， 它 们 分 别 用 于 选择 特定 的 虚拟 通路 和 虚拟 电路 。VPI (8 位 ) 和 VCI 
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(16 位 ) 组 合 起 来 为 信 元 提供 了 一 个 唯一 的 路 由 指示 器 。 打 个 比方 ，VPI 就 像 电 话 号 码 中 的 区 号 
(604)， 而 VO 则 是 区 号 后 面 的 数字 (555-1212). 


GFC VPI VCI | PT F HEC 

















0 8 16 24 32 40 
5 字 节 一 一 | 
GFC = 通用 流量 控制 PT = 载荷 类 型 
VPI = 虚拟 路 径 标识 符 CLP = 信 元 丢失 优先 级 
VCI = 虚拟 通道 标识 符 HEC = 头 错误 检测 


图 15-4 ATM UNI 信和 元 头 


3 位 的 有 效 载荷 类 型 PT 规定 这 个 信 元 是 用 于 用 户 数据 还 是 用 于 管理 和 维护 、 网 络 拥塞 等 。 
比如 ，000 表示 用 户 数据 信 元 类 型 0， 没 有 拥塞 ，010 表示 用 户 数据 信 元 类 型 0， 发 生 拥 塞 。PT 
可 能 会 随 网 络 情况 而 改变 ， 比 如 从 000 到 010 就 表示 网 络 变 得 拥塞 了 。 

1 位 的 信 元 丢失 优先 级 “CLP〉》 人 允许 通过 设置 CLP 为 1 来 表示 低 优先 级 信 元 。 当 网 络 拥塞 的 
时 候 ， 就 给 ATM 交换 机 提供 了 丢弃 那些 信 元 的 提示 。 

8 位 的 头 错误 检测 CHEC) 只 检查 信 头 的 错误 〈 不 检查 有 效 负 荷 )。 由 于 信 头 其 余 的 部 分 只 有 
32 位 ， 所 以 这 个 8 位 的 字段 已 经 相对 较 长 了 。 它 既 用 于 错误 检查 也 用 于 错误 修复 [2]。 

NNI 头 与 UNI 头 十 分 相似 ， 只 不 过 没有 4 位 的 GFC。 而 它 的 VPI 则 增加 为 12 位 。 
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2. AIM 层 和 子 层 ) 
图 15-5 说 明了 OSI 层 与 ATM 适 配 层 (ATM Adaptation Lager, AAL) 及 以 下 的 ATM BRIF |437 


层 的 之 间 的 比较 。 如 图 所 示 ，AAL 对 应 于 OSI 的 传输 层 和 一 部 分 网 络 层 。 它 由 两 个 子 层 组 成 : 汇 
SFR (CS) 及 分 组 和 重组 子 层 (SAR). CS 为 用 户 应 用 提供 了 接口 (汇集 )。SAR 负责 信 元 的 
分 组 和 重组 。 


OSI ATM 




















AAL = ATM ERE 


CS = 汇集 子 层 
SAR = 分 组 和 重组 子 层 
TC = 传输 汇集 层 


PMD = 物理 介质 相关 子 层 
图 15-5 OSI (第 四 层 及 以 下 ) 与 ATM 层 的 比较 


ATM 层 对 应 于 一 部 分 OSI 的 网 络 和 数据 链 路 层 。 它 的 主要 功能 是 流量 控制 ， 虚 拟 电 路 和 通路 
的 管理 ， 信 元 的 多 路 复 用 和 分 离 。ATM 物理 层 由 两 个 子 层 组 成 ， 传 输 汇 集 层 (TC) 和 物理 介质 相 
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ATE (PMD). PMD 对 应 于 OSI 的 物理 层 ， 而 TC 执行 信 头 错误 检查 和 帧 〈 信 元 ) 包装 和 解 包装 。 
这 使 得 ATM 物理 层 与 OSI 物理 层 有 较 大 区 别 ， 在 OSI 中 分 帧 的 工作 由 OSI 数据 链 路 层 完 成 。 


15.3.4 千 兆 和 10 千 兆 以 太 网 


千 兆 以 太 网 于 1998 年 成 为 标准 (IEEE802.3z) [2]。 它 使 用 与 早期 以 太 网 相同 的 帧 格式 和 大 
小 ， 并 向 后 兼容 10BASE-T 和 100BASE-T。 虽 然 当 它 使 用 不 同 的 光纤 或 者 铜 质 介 质 的 时 候 可 以 进 
一 步 划分 为 1 000BASE-LX、1 000BASE-SX、1 000BASE-CX 和 1 000BASE-T， 但 通常 将 它 看 做 
1 OOOBASE-T. 1 000BASE-LX 使 用 单 模 光 纤 (SM 光纤 ) 时 的 最 大 链接 距离 为 5 THK, GASH 

光纤 《MM 光纤 ) 时 的 最 大 距离 为 550 米 ， 使 用 屏蔽 双 绞 线 时 则 仅 有 25 米 。 

千 兆 以 太 网 对 于 交换 机 之 间 的 连接 采用 了 全 双 工 模式 ， 对 于 使 用 中 继 器 的 共享 连接 则 使 用 半 
双 工 模式 。 由 于 在 半 双 工 模式 下 常常 会 发 生 冲 突 ， 所 以 千 兆 以 太 网 像 它 之 前 的 版 本 一 样 使 用 标准 
的 以 太 网 访问 方法 一 一 载波 侦 昕 多 路 访问 /冲突 检测 (CSMA/CD)。 千 兆 以 太 网 迅速 地 取代 了 快速 
以 太 网 和 FDDI， 特 别 是 在 网 络 主干 上 。 它 不 仅仅 用 于 LAN， 并 且 在 城 域 网 中 也 有 所 应 用 。 

10 千 光 以 太 网 于 2002 年 完成 。 它 保留 了 以 太 网 的 主要 特征 《总 线 、 包 交换 ) 和 同样 的 包 格 
式 。 高 达 10Gbps 的 传输 速率 使 得 它 只 能 使 用 光纤 作为 传输 介质 。 由 于 它 只 工作 在 全 双 工 模式 下 
(交换 机 和 缓冲 分 配 装置 )， 因 此 它 并 不 需要 CSMA/CD 来 进行 冲突 检测 。 

人 们 期 望 用 10 千 兆 以 太 网 实现 语音 和 数据 网 络 的 合 二 为 一 。 它 比 ATM 的 成 本 更 低 。 它 的 设 
计 包 含 所 有 的 LAN、MAN 和 WAN,， 并 且 它 的 传输 能 力 等 于 甚至 超过 光纤 通道 、 高 性 能 并 行 接口 
(HIPPI), Ultra 320 或 者 640 SCSI 和 ATM/SONET OC-192。 它 使 用 SM 光纤 的 时 候 ， 最 大 链接 距 
离 增加 到 40 千 米 〈 见 表 15-5)。 事 实 上 ， 技 术 人 员 对 10 千 兆 以 太 网 与 SONET/SDH 的 互 用 性 也 
有 专门 的 考虑 ， 因 此 以 太 网 包 能 够 顺利 通过 SONET/SDH 链 路 。 | 

K 15-5 提供 了 快速 以 太 网 、 千 兆 以 太 网 和 10 千 兆 以 太 网 之 间 的 简要 比较 。 


表 15-5 快速 以 太 网 、 干 兆 以 太 网 和 10 千 兆 以 太 网 的 比较 


快速 以 太 网 (100BASE-T) 千 兆 以 太 网 (1 000BASE-T) 10 千 兆 以 太 网 


BER 0Gbps 
fe ek BRU 
BATE NA Ci) 
介质 铜 缆 或 光纤 HA BB 仅 光 纤 

5km (SM X% 
_ 最 多 2km (光纤 ) 最 多 光纤 最 多 40km (SM 光纤 ) 
目标 距离 550m (MM 光纤 ) 
200m (H4) 300m (MM 光纤 ) 
25m (Hi) 
ea LANMANTWAN 
IEEE 标准 802.3u 802.32 802.3ae 
年 份 1995 1998 2002 
15.4 EAW 


接 入 网 (access network ) 连接 终端 用 户 和 主干 网 。 它 也 被 认为 是 传输 各 种 多 媒体 服务 的 “最 
后 一 英里 ” 这 些 服务 包括 Intemet 接 入 、 电 话 和 数字 或 者 模拟 电视 服务 。 
除了 前 面 讨论 的 ADSL， 一 些 常见 的 接 入 网 有 : 
。 混合 光纤 / 同 轴 〈HFC) 电缆 网 络 ”光纤 连接 主干 网 和 邻近 的 光纤 网 络 单元 (ONU)， 这 些 
单元 通常 为 上 百 个 家 庭 提供 接 入 。 这 样 ， 所 有 的 终端 用 户 可 以 通过 一 条 共享 的 同 轴 电 缆 来 
得 到 服务 。 
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一 般 来 说 ， 模 拟 有 线 电 视 被 分 配 的 频率 范围 为 50~500MHz， 划 分 为 NTSC TV 的 6MHz 通道 
和 欧洲 的 8MHz 通道 。 对 于 HFC 电缆 网 络 ， 下 行 流 被 分 配 的 频率 范围 为 440~750MHz， 而 上 行 流 
被 分 配 的 频率 范围 为 5~42MHz。 对 于 下 行 流 ， 电 缆 调制 解 调 器 作为 调谐 器 来 捕获 QAM 调制 过 的 
数字 流 。 上 行 流 则 使 用 正 交 相 移 键 控 (QPSK〉[2] 调 制 ， 因 为 它 对 于 有 了 噪声 和 拥塞 的 频谱 有 更 好 
的 健壮 性 。 

HFC 的 一 个 潜在 问题 是 共享 同 轴 电 缆 中 的 噪声 和 干扰 。 上行 通 道中 的 隐私 和 安全 也 是 应 该 关 
心 的 问题 。 

。 光 纤 到 社区 (FTTC) ”光纤 连接 主干 网 和 社区 的 ONU。 每 一 个 ONU 通过 双 绞 铜 线 或 者 
同 轴 电 缆 连 接 数 十 个 家 庭 。 对 于 FITC, ONU 使 用 星 型 拓扑 ， 这 样 ， 连 接 终端 用 户 的 介质 
并 没有 共享 , 这 相对 于 HFC 是 一 个 比较 大 的 改善 。 在 下 行 方向 , 典型 的 传输 速率 为 T1~T3， 
在 上 行 方向 最 高 为 19.44Mbps。 
光纤 到 家 庭 (FTTH) ”光纤 直接 连接 主干 网 和 一 小 组 一 小 组 的 家 庭 ， 提 供 了 最 高 的 带宽 。 
例如 , 在 到 达 四 个 家 庭 之 前 , 一 个 622Mbps 的 下 行 流 由 TDM 分 为 四 个 155Mbps 的 下 行 流 。 
由 于 大 多 数 家 庭 只 有 双 绞 线 或 同 轴 电 缆 ， 所 以 实施 FTTH 的 花费 比较 大 。 

地 面 传送 ”地 面 广播 使 用 VHF 和 UHF 频谱 (大约 40~800MHz). 每 个 通道 占用 8MHz Rk 
洲 ) 或 者 6MHz (美国 )， 每 次 传输 覆盖 直径 约 为 100 千 米 。 对 于 模拟 视频 可 以 使 用 AM 和 
FM 调制 ， 而 对 于 数字 视频 则 使 用 编码 的 正 交 频 分 多 路 复 用 (COFDM)。 这 个 标准 称 为 数 
字 视 频 地 面 广播 “DVB-T)。 由 于 返回 通道 (上行 流 ) 并 不 支持 地 面 广 播 ， 所 以 常 为 交互 
式 应 用 中 的 上 行 流 使 用 独立 的 POTS 或 者 N-ISDN 链 路 。 

卫星 传送 ”卫星 广播 使 用 千 兆赫 效 频谱 。 每 个 卫星 可 以 覆盖 上 千 和 于 米 的 区 域 。 对 于 数字 
视频 ， 每 个 卫星 通道 通常 的 传输 速率 为 38Mbps， 对 于 很 多 数字 视频 广播 (DVB) 通道 
来 说 已 经 足够 好 了 。 它 的 标准 为 数字 视频 卫星 广播 (DVB-S). 与 DVB-T 类 似 ，POTS 
或 者 N-ISDN 可 以 用 于 支持 DVB-S 的 上 行 数据 。 


15.5 ”通用 外 设 接口 


为 加 以 对 比 ， 表 15-6 列 出 了 各 种 用 于 连接 WO 和 其 他 设备 (硬盘 、 打 印 机 、CD-ROM、 指 点 
设备 (例如 恨 标 )、 个 人 数字 助理 PDA)、 数 码 相机 等 ) 的 通用 外 设计 口 。 


表 15-6 通用 外 设 接口 的 速度 






















Serial Port 115 kbps 





Ultra2 SCSI 40 MBAs 

































标准 并 行 端口 115 kB/s IEEE 1394(FireWire,i.Link) 1.5~50 MB/s 
USB 1.5 MB/s | USB 2 60 MB/s 
ECP/EPP 并 行 端口 3MBAs | wide Ultra2 SCSI(Fast 40) 80 MB/s 

IDE 3.3~16.7 MB/S Ultra3 SCSI 80 MB/s 
SCSL-1 5 MB/s | Ultra ATA 133 133 MB/s 
SCSI-2(Fast SCSI, Fast narrow SCSI) 10 MB/s Wide Ultra3 SCSI(Ultra 160 SCSI, Fast 80) 160 MB/s ` 
Fast wide SCSI(Wide SCSI) 20 MB/s HIPPI 100~200 MB/s 
Ultra SCSI(SCSI-3, Ultra narrow SCSI) 20 MB/s Ultra 320 SCSI 320 MB/s 
EIDE 33 MB/s | 光纤 通道 100~400 MB/s 








Wide Ultra SCSI(Fast 20) 40 MB/s | Ultra 640 SCSI 


| 640 MB/s 
USB: 通用 串 行 总 线 SCSI: 小 型 计算 机 系统 接口 


ECP; 增强 型 高 能 端口 Narrow: 窗 〈8 位 数据 ) 
EPP: 增强 型 并 行 端口 Wide: 3 (16 位 数据 ) 
IDE: 集成 磁盘 电子 HIPPI: 高 性 能 并 行 接口 


EIDE: 增强 型 IDE 
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15.6 ”进一步 探索 


Tanenbaum[1] 和 Stallings[2] 的 书 对 计算 机 网 络 和 数据 通信 给 出 了 详细 的 论述 。 

本 书 网 站 上 关于 这 一 章 的 Further Exploration 部 分 提供 了 大 量 介绍 计算 机 和 多 媒体 网 络 的 网 
络 资源 ， 包 括 以 下 链接 : 

。SONET FAQ 等 。 

。 位 于 DSL 论坛 的 xDSL 介绍 。 

。 关 于 ATM 的 介绍 与 白皮书 。 

。Alliance 网 站 上 关于 10 千 光 以 太 网 的 FAQ 和 白皮书 。 

。IEEE 802 标准 。 

e IETF 关于 IPv6 (IPRA 6) 的 RFC. 


15.7 练习 

1. OSI 和 TCP/IP 参考 模型 之 间 的 主要 区 别 是 什么 ? 

2. IPv6 是 一 个 新 的 IP 协议 ， 与 IPv4 相 比 ， 它 有 哪些 优点 ? 

3. UDP 不 支持 端 到 端的 流量 控制 ， 但 是 TCP 支持 。 请 解释 这 是 怎么 通过 使 用 序列 号 实现 的 。 给 
出 一 个 例子 ， 其 中 分 包 后 的 消息 使 用 UDP 传输 却 接收 到 不 正确 的 结果 ， 而 使 用 TCP 在 相同 的 
条 件 下 〈 没 有 通道 错误 ) 却 能 正确 地 接收 到 结果 。 

4. 作为 FDM 的 变 体 ，WDM 用 于 光纤 通道 的 多 路 复 用 。 试 比较 WDM 和 FDM. 

5. ISDN 和 ADSL 都 能 为 家 庭 用 户 或 者 小 型 办 公 室 用 户 传输 综合 网 络 服务 ， 比 如 语音 、 视 频 等 ， 
那么 ADSL 与 ISDN 相 比 有 哪些 优点 。 

6. 许多 协议 (比如 以 太 网 、 令 牌 环 和 FDDI) aR LAN 中 使 用 。 讨 论 这 三 种 技术 的 功能 和 它 
们 的 区 别 。 

7.， 帧 中 继 和 信 元 中 继 都 是 包 交 换 的 变 体 。 试 比较 这 两 种 技术 。 

8. 交换 和 路 由 有 什么 区 别 ? 路 由 算法 是 交换 技术 中 专用 的 吗 ? 

9. ATM 有 多 少 个 子 层 ? 它们 分 别 是 什么 ? 

10. Æ HFC 电缆 网 络 中 ， 有 两 种 调制 方案 用 于 传输 下 行 和 上 行 数据 。 为 什么 上 行 和 下 行 要 区 别 对 
待 ? 我 们 同时 也 应 该 使 用 不 同 的 多 路 复 用 技术 吗 ? 
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第 16 章 多 媒体 网 络 通信 和 应 用 


大 致 说 来 ， 多 媒体 网 络 通信 与 〈 传 统 的 ) 计算 机 网 络 通信 是 类 似 的 ， 因 为 它们 都 要 处 理 数据 
通信 。 然 而 ， 多 媒体 网 络 通信 比 传统 的 计算 机 网 络 通 信 更 有 挑战 性 ， 因 为 多 媒体 数据 〈 音 频 、 视 
频 等 ) 是 连续 的 媒体 文件 。 它 们 具有 以 下 的 特点 : 

MEEK ”多 媒体 网 络 通信 要 求 较 高 的 数据 传输 率 ， 甚 至 达到 几 十 或 者 几 百 Mbps. 

。 实 时 性 和 交互 性 ”多 媒体 网 络 通信 要 求 在 音频 和 视频 文件 传输 时 保持 低 延 时 和 同步 性 来 满 

足 “ 层 同步 ”的 要 求 。 另 外 ， 视 频 会 议 以 及 交互 式 多 媒体 等 应 用 往往 需要 两 路 通信 。 
。 有 时 会 出 现 网 络 数据 的 爆炸 ”数据 的 传输 率 会 发 生 极 大 的 变化 。 比 如 在 视频 点 播 中 ， 通 信 
路 径 在 大 部 分 时 间 内 是 空闲 的 ， 但 有 时 会 达到 很 大 的 数据 量 。 


16.1 多 媒体 数据 传输 的 质量 
16.1.1 服务 质量 


多 媒体 数据 传输 的 服务 质量 (Quality of Service, QoS) 由 很 多 的 参数 决定 。 下 面 就 是 一 些 比 
较 重 要 的 参数 : 
。 数 据 传输 率 ”度量 传输 速度 的 一 种 方法 ， 通 常 以 千 位 每 秒 (kbps) 或 者 兆 位 每 秒 (Mbps) 
为 单位 。 
。 延 迟 〈 最 大 帧 / 包 延 迟 时 间 》 从 开始 传输 到 接收 所 需 的 最 长 时 间 ， 通 常 以 毫秒 (ms) 为 单 
位 。 例如 , 在 语音 通信 中 , 如果 通信 过 程 总 的 延迟 超过 50 毫秒 ,就 会 产生 比较 明显 的 回声 ; 
如 果 单 向 延迟 超过 250 毫秒 ， 就 会 出 现 发 言 者 的 语音 交 生 现象 ， 因 为 每 个 发 言 者 在 发 言 的 
时 候 都 不 知道 其 他 发 言 者 正在 说 的 内 容 。 
。 包 丢 失 或 者 出 错 ”一 种 〈 以 百分率 ) 描述 数据 包 传输 过 程 中 错误 率 的 方法 。 数 据 包 在 因 特 
网 上 的 传输 的 过 程 中 可 能 会 丢失 ， 还 可 能 出 现 传输 延迟 和 顺序 颠倒 的 情况 出 现 。 因 为 通常 
不 希望 重新 传输 数据 包 ， 所 以 在 实时 多 媒体 传输 过 程 中 一 个 简单 的 差错 修复 方法 就 是 在 不 
产生 严重 错误 的 情况 下 重复 播放 出 现 错误 前 收 到 的 最 后 一 个 包 。 
对 于 未 经 压缩 的 视频 和 音频 来 说 ， 通 常 期 望 丢 包 率 <10 了 《平均 每 100 个 数据 包 的 传输 过 程 
中 丢掉 的 个 数 )。 当 和 技 包 率 达到 10% 的 时 候 ， 用 户 就 会 无 法 忍受 传输 的 质量 。 对 于 压缩 的 多 媒体 和 
普通 数据 来 说 ， 期 望 的 丢 包 率 要 小 于 10” 或 103 。 一 些 优先 级 传输 技术 〈 将 在 16.1.3 节 中 进行 讨 
论 ) 可 以 减轻 丢 包 带 来 的 影响 和 损失 。 
° Fah (或 延迟 撑 动 ) 一 个 评价 音频 /视频 播放 过 程 的 流畅 程度 的 度量 方法 。 从 技术 的 角度 
来 说 ， 持 动 由 数据 包 / 帧 不 同 的 延迟 的 变化 产生 。 建 立 一 个 可 以 存放 足够 多 的 数据 帧 的 缓冲 
K (BIRIK), 使 得 延迟 时 间 更 多 的 数据 帧 可 以 到 达 并 存放 起 来 ， 这样 可 以 减少 播放 时 
的 抖动 现象 。 但 是 这 样 会 增加 整个 媒体 流 的 延 时 ， 同 时 这 种 办 法 在 实时 、 交 互 的 应 用 中 不 
是 很 实际 。 图 16-1 给 出 了 例子 来 说 明 音 频 / 视 频 中 的 抖动 。 
。 同步 偏离 ”一 种 评价 多 媒体 数据 同步 的 度量 方法 ， 通 常 以 毫秒 为 单位 。 对 于 一 个 高 质量 的 
唇 同步 传输 ， 音 频 和 视频 的 最 大 同步 偏离 应 该 是 在 +80 毫秒 之 间 ， 同 步 偏离 达到 +200 毫秒 
的 时 候 也 可 以 接受 。 对 于 一 个 视频 语音 的 混合 文件 ， 应 保证 视频 领先 语音 的 同步 偏离 不 超 
过 120 毫秒 ， 而 语音 领先 视频 的 同步 偏离 不 超过 20 毫秒 。( 这 种 视频 和 语音 间 同 步 偏离 不 
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一 样 的 情况 是 可 能 出 现 的 ， 因 为 人 们 通常 习惯 语音 落后 于 视频 若干 时 间 。) 





时 间 + 


Hi 播放 的 帧 


a) 高 抖动 


b) 低 拌 动 


图 16-1 ” 帧 回放 中 的 拌 动 


1， 多 媒体 服务 的 种 类 
基于 以 上 的 度量 方法 ， 多 媒体 应 用 程序 可 以 被 划分 成 以 下 几 种 类 型 : 


网 络 带 宽 / 码 率 的 需求 


。 实时 (也 称 为 会 晤 ) 


如 视频 电话 和 音频 电话 。 


。 优先 级 数据 ” 双 通 信和 链 路 、 低 丢 包 率 、 低 延 
迟 ， 采 用 具有 优先 级 的 发 送 方 式 ， 如 电子 商 


务 应 用 程序 。 


。 银 级 ”中 度 延 迟 、 中 度 拌 动 ， 严 格 有 序 和 同 


双 通 信 链 路 、 低 延迟 、 
低 抖 动 ， 可 能 采用 具有 优先 级 的 发 送 方式 ， 


表 16-1 


电话 
语音 会 议 


H.261 


步 。 单 通信 链 路 的 应 用 有 视频 流 ， 双 通信 链 


路 (交互 性 的 ) 的 应 用 有 网 络 游戏 等 。 


。 尽力 型 服务 ”不 需要 实时 通信 ， 


有 大 文件 (如 电影 文件 ) 的 下 载 和 传输 。 


。 铜 级 ”对 传输 没有 保护 措施 。 


表 16-1 列 出 了 一 些 主要 的 多 媒体 网 络 应 用 所 
需要 占用 的 带宽 和 码 率 。 表 16-2 列 出 了 不 同 质量 
的 数字 音频 和 视频 在 传输 中 可 以 承受 的 最 大 延 时 


和 抖动 。 


H.263 
DVI 视频 
MPEG-1 视频 
MPEG-2 视频 
HDTV (压缩 》 
HDTV (不 压缩 ) 


类 似 的 应 用 







视频 会 议 (QoS) 


CD 质量 的 音乐 (QoS) 


MPEG-4 视频 点 播 (QoS ) 















16kbps 
32 kbps 
128~192 kbps 
64~640 kbps 
64 kbps~2 Mbps 
<64 kbps 
1.2~1.5 Mbps 
1.2~1.5 Mbps 
4~60 Mbps 

>20 Mbps 

>l Gbps 
250~750 kbps 
384 kbps~2 Mbps 










表 16-2 ”数字 音频 和 视频 传输 时 可 以 承受 的 最 大 延 时 和 抖动 














低 端 视频 会 议 (64kbps) 
压缩 语音 (16 kbps) 
MPEG NTSC 视频 (1.3Mbps) 
MPEG 音频 (256kbps) 
HDTV 视频 (20Mbps) 


2. 感知 QoS 


平均 容忍 延迟 (ms) 


300 
30 
§ 
eee ee 





平均 延 时 抖动 Cms) 


尽管 QoS 通常 用 前 面 介绍 的 几 项 技术 参数 加 以 度量 ， 但 是 QoS 本 身 是 “决定 用 户 对 该 服务 
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的 满意 度 的 服务 质量 的 集中 表现 ”， 上 面 的 定义 来 自 国际 通信 联盟 ITU). BREW, Qos 与 用 
户 的 感觉 有 很 大 的 关系 。 

在 实时 多 媒体 交互 的 过 程 中 ， 数 据 的 平滑 性 要 比 数据 的 延迟 性 重要 (也 就 是 说 ， 数 据 的 抖动 
和 波动 要 比 稍微 延长 的 等 待 时 间 更 让 人 不 可 接受 ); 时 序 的 正确 性 要 比 声音 和 图 像 的 质量 重要 ( 即 
音频 和 视频 的 有 序 和 同步 往往 是 要 重点 考虑 的 因素 )， 人 们 的 视觉 焦点 在 同一 时 间 内 总 是 集中 在 
一 件 事 物 上 。 用 户 通常 把 焦点 放 在 屏幕 的 中 央 区 域 ， 在 屏幕 的 内 容 变化 之 后 ， 重 新 转换 焦点 需要 
一 定 的 时 间 。 

前 面 几 童 中 我 们 已 经 讨论 过 人 们 感知 的 不 一 致 性 ， 在 这 一 方面 已 经 有 很 多 关于 感知 的 论文 ， 
它们 都 论述 了 如 何 使 用 户 获得 更 好 的 感知 QoS 。 


16.1.2 IP 协议 的 QoS 


QoS 策略 和 技术 可 以 通过 向 不 同 级 别 的 服务 提供 不 同 的 数据 流 或 者 应 用 来 控制 前 面 章节 提 到 
的 诸如 数据 延迟 、 技 包 率 和 抖动 等 关键 参数 。 

帧 中 继 路 由 协议 和 ATM 提供 一 定 级 别 的 QoSs， 但 是 目前 几乎 所 有 的 因特网 应 用 程序 是 基于 
IP 建立 的 。IP 是 一 个 “尽力 型 服务 ”通信 技术 ， 它 不 对 不 同 的 IP 应 用 进行 区 分 。 这 样 就 很 难 通 
过 现 有 的 路 由 方法 来 提供 基于 IP 的 QoS. 

具有 充足 的 带宽 可 以 提高 QoS， 但 是 在 复杂 的 网 络 世 界 中 ， 我 们 很 难 在 每 个 地 方 都 得 到 足够 
的 带宽 (实际 上 ， 很 多 下 网 络 都 在 被 超 量 使 用 )。 特 别 是 ， 充 足 的 带宽 也 不 能 到 达 所 有 的 接 入 连 
接 。 即 使 它 可 以 到 达 ， 仅 靠 带宽 也 不 能 解决 诸如 通信 和 链 路 上 的 数据 峰值 等 问题 。 

区 分 服务 (Differentiated Service, DiffServ) 使 用 DiffServ 码 (IPv4 数据 包 中 的 服务 类 型 (TOS) 
八 位 组 和 IPv6 数据 包 中 的 通信 量 类 型 八 位 组 ) 来 对 数据 包 分 类 , 使 得 对 于 不 同 的 包 有 不 同 的 处 理 
办 法 。 尽 管 它 也 适用 于 端 到 端的 网 络 ， 但 它 在 内 部 局 域 网 和 企业 网 络 内 部 得 到 了 更 广泛 的 应 用 ， 
因为 它 很 简单 而 且 伸 缩 性 好 。 区 分 服务 〈 与 其 他 QoS HAR) 一 起 成 为 事实 上 的 QoS 技术 。 读 者 
可 以 查看 IETFRFC 2998 获得 更 多 信息 。 

多 重 协议 标记 交换 服务 (Multiple Protocol Label Switching, MPLS) 通过 在 P 的 顶层 覆盖 一 
个 协议 而 使 得 IP 与 OSI 第 二 层 的 技术 〈 如 ATM) 结合 得 更 紧密 。 它 在 骨干 IP 网 络 中 引入 一 个 
32 位 的 标签 并 把 一 个 或 者 多 个 垫 片 标签 放 入 到 IP 数据 包 的 头 中 。 这 样 就 创建 了 一 个 隧道 ， 叫 做 
标记 交换 路 径 〈Label Switched Path, LSP). FH, BF P 网 络 就 成 为 面向 连接 的 网 络 了 。 

MPLS 的 优势 在 于 ， 它 支持 流量 工程 (Traffic Engineering, TE) 和 虚拟 专用 网 (Virtial Private 
Network，VPN)。 流 量 工程 主要 用 来 控制 网 络 流量 。TE 和 VPN 都 在 多 媒体 数据 的 QoS 传输 中 起 
到 作用 。MPLS 支持 8 种 服务 类 型 。 读 者 可 以 查阅 RFC 3031 获得 相关 的 信息 。 

可 以 将 区 分 服务 和 MPLS 结合 使 用 ， 以 便 对 每 个 类 型 的 QoS 性 能 和 带宽 提供 更 好 的 控制 ， 同 
时 保留 MPLS 和 DiffServ 的 优点 。 


16.1.3 ”具有 优先 级 的 发 送 


当 发 生 网 络 拥塞 时 ， 会 使 数据 包 丢 包 率 和 错误 率 提高 ， 通 过 区 分 多 媒体 数据 的 发 送 的 优先 级 
可 以 减轻 网 络 拥塞 带 来 的 影响 。 

。 媒体 的 优先 级 类 型 ”传输 算法 能 够 为 不 同 的 媒体 数据 分 配 不 同 的 优先 级 ， 比 如 该 算法 设 定 

音频 数据 的 优先 级 高 于 视频 数据 的 优先 级 ， 因 为 音频 数据 内 容 的 丢失 会 更 容易 被 用 户 察觉 。 

。 未 压缩 的 音频 文件 的 优先 级 ”可 以 把 PCM 音频 位 流 按 每 n 个 采样 分 成 一 组 , 先 设 定 它们 的 

优先 级 ， 然 后 发 送 全 部 n 个 组 中 的 个 组 (Kk 志 n)， 最 后 如 果 需 要 的 话 发 送 剩 下 的 组 给 接收 

者 ， 使 得 它们 能 被 插入 到 原来 的 采样 中 。 比 如 ， 如 果 四 个 数据 组 中 有 两 个 组 丢失 了 ， 那 么 
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有 效 的 采样 率 会 从 44.1kHz 降 到 22.05kHz。 数 据 的 丢失 被 感知 为 采样 率 的 变化 ,而 不 是 声音 
的 丢失 。 

。JPEG 图 像 的 优先 级 HA JPEG 的 不 同 扫描 策略 和 分 级 JPEG 图 像 的 不 同 分 辩 率 可 以 被 
赋予 不 同 的 优先 级 。 比 如 ， 对 使 用 DC 系数 和 前 几 个 AC 系数 的 扫描 方法 赋予 高 优先 级 ， 
以 及 对 分 级 JPEG 图 像 中 的 低 分 辩 率 组 件 赋予 高 优先 级 。 

。 压缩 视频 文件 的 优先 级 ”视频 优先 级 算法 通过 设 定 I 帧 的 优先 级 最 高 ，B 帧 的 优先 级 最 低 
来 使 播放 的 延迟 和 抖动 减 到 最 低 程度 。 在 使 用 分 层 编码 的 视频 文件 中 《如 MPEG-2 和 
MPEG-4)， 通 常 底层 的 优先 级 要 比 上 层 的 优先 级 高 。 


16.2 IP 上 的 多 媒体 


因为 因特网 具有 非常 大 的 便利 性 和 实用 性 , 所 以 入 们 付出 了 很 大 的 努力 把 基于 P 的 多 媒体 的 
理论 变 成 现实 ， 尽 管 这 是 一 个 很 有 挑战 性 的 任务 。 在 本 节 中 ， 我 们 将 学 习 一 些 基 于 了 P 的 多 媒体 的 
关键 的 问题 、 技 术 和 协议 。 

16.2.1 IP 多 播 

在 网 络 术语 中 ， 一 个 广播 的 消息 被 发 送 给 域 中 所 有 节点 ， 一 个 单 播 消息 只 发 送 到 网 络 中 的 一 
个 节点 ， 而 一 个 多 播 的 消息 则 是 发 送 到 网 络 中 特定 的 节点 集 ?。 

IP 多 播 使 得 因特网 上 的 多 播 成 为 可 能 。 它 在 邮件 列表 、 ABR. 文件 组 传送 、 音 频 / 视 频 点 播 、 

音频 /视频 会 议 等 应 用 中 具有 很 大 的 作用 。1988 年 ，Steve Deering 在 他 的 博士 论文 中 首先 提出 IP 
多 播 技术 。1992 年 的 3 月 ， 在 圣迭戈 召开 的 ETF 会 议 使 用 了 因特网 广播 技术 ， 尽 管 只 是 音频 广 
播 ， 但 这 还 是 下 多 播 技术 发 展 过 程 中 的 一 个 重大 事件 。 

1，MBone 

因特网 的 MBone (Multicast Backbone) 是 基于 IP 多 播 技 术 的 [1]， 它 出 现在 20 世纪 90 年 代 
初期 , 已 经 在 因特网 的 音频 和 视频 会 议 中 得 到 了 应 用 和 2, 3]。 早期 的 应 用 包括 用 于 音频 会 议 的 vat， 
用 于 视频 会 议 的 vic 或 nv 等 。 其 他 的 应 用 包括 共享 空间 中 的 白板 “wb) 和 基于 Mbone 的 会 话 路 
径 管 理 sdr。 

因为 很 多 路 由 器 并 不 支持 多 播 ， 所 以 MBon 利用 支持 多 播 的 路 由 器 的 路 径 器 (mrouter) 来 
转发 多 播 的 数据 包 。 如 图 16-2 所 示 ， 路 径 器 (所 谓 的 “ 岛 ”) 通过 隧道 连接 。 多 播 数 据 包 被 包装 
到 普通 的 TP 数据 包 内 部 通过 隧道 发 送 到 目的 地 路 由 器 ， 这 样 数据 就 能 够 在 “ 岛 ” 之 间 相 互 传送 。 

在 IPv4 中 ， 每 个 下 地 址 由 32 位 组 成 。 如 果 前 四 位 是 1110， 就 表示 该 消息 是 一 个 多 播 消 息 。 
IP 多 播 币 盖 的 IP 地 址 区 间 从 224.0.0.0~239.255.255.255。 

P 多 播 中 可 以 有 工 名 的 成 员 。 源 主机 向 以 上 的 TP 多 播 地 址 发 送 消息 ， 但 它 不 知道 谁 会 接收 
到 消息 ,主机 的 软件 把 于 组 地 址 映射 到 一 个 接收 地 址 的 列表 中 。 这样 , 在 硬件 支持 多 播 的 时 候 ( 例 
如 以 太 网 和 FDDI 支持 硬件 多 播 ) 就 发 送 多 播 消 息 ， 而 在 不 支持 多 播 的 时 候 就 给 网 络 树 中 的 邻接 
节点 发 送 多 个 单 播 消 息 。 

多 播 的 一 个 潜在 问题 是 网 络 中 同时 会 存在 和 传输 太 多 的 数据 包 。 幸 运 的 是 ，TP 数据 包 具 有 一 
个 生存 期 TTL) 字段 ， 该 字段 可 以 限制 数据 包 的 生存 周期 。 每 个 路 由 器 把 经 过 该 路 由 器 传送 的 
数据 包 的 TTL 值 至 少 减 1。 当 一 个 数据 包 的 TTL 值 为 零 的 时 候 ， 就 将 它 丢 弃 。 

上 面 讨论 的 P 多 播 方法 是 基于 UDP CAE TCP) 的 ， 这 样 可 以 避免 多 播 的 接收 者 在 收 到 数 
据 包 后 向 主机 发 送 过 多 的 确认 消息 。 这 样 ， 数 据 包 采用 “尽力 型 服务 ”方式 进行 传输 ， 因 此 数据 
的 可 靠 性 就 受到 了 限制 。 


O IPv6 也 称 为 泛 播 《anycast)， 即 将 消息 发 给 任意 一 个 指定 的 节点 。 
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路 由 器 


图 16-2 MBone 中 的 卫 多 播 隧道 


2， 因 特 网 组 管理 协议 

因特网 组 管理 协议 (nternet Group Management Protocol, IGMP) 用 来 帮助 管理 多 播 组 。 两 
个 特殊 的 IGMP 消息 类 型 是 Query CAW) 和 Report RE). Query 消息 由 路 由 器 发 送 给 网 络 上 
的 全 部 主机 ， 用 来 获取 多 播 组 的 成 员 信息 。Report 消息 用 来 响应 路 由 器 的 查询 消息 ， 同 时 也 可 以 
用 来 加 入 一 个 多 播 组 。 

当 收 到 一 个 查询 信息 的 时 候 ， 每 个 组 内 成 员 在 回复 信息 之 前 要 等 待 一 段 时 间 。 如 果 在 这 段 时 
间 内 ， 该 成 员 听 到 了 其 他 的 回复 信息 ， 那 么 该 成 员 就 不 会 对 这 个 查询 信息 作出 回复 。 路 由 器 定期 
发 出 多 播 组 关系 的 查询 ， 如 果 收 到 至 少 一 条 回复 的 消息 ， 路 由 器 便 把 它们 设 定 为 组 内 的 成 员 ， 如 
果 在 一 段 时 间 内 没有 收 到 任何 回复 消息 ， 则 路 由 器 便 把 它们 设 定 为 非 组 内 成 员 。 

IGMP 的 版 本 2 中 要 求 数据 延迟 要 低 ， 所 以 在 组 内 成 员 都 离开 这 个 组 的 时 候 ， 多 播 组 的 关系 
会 被 更 快 地 清除 。 

3， 可 靠 多 播 传输 

IETF PFC 2357 给 出 了 一 个 评价 可 靠 全 多 播 协议 的 标准 。 

就 像 Almeroth[4] 指 出 的 那样 ，MBone 维护 一 个 平坦 的 虚拟 拓扑 结构 ， 而 且 它 并 不 提供 路 径 
聚合 (MBone 在 峰值 的 时 候 可 能 有 约 10 000 条 路 由 )。 这 样 ， 它 就 不 具有 伸缩 性 。 此 外 ， 最 初 的 
设计 还 具有 高 分 布 性 (和 简单 性 )。 它 假设 在 网 络 中 没有 专门 的 中 央 管 理 设备 ， 这 会 使 隧道 管理 
的 效率 低下 ， 也 就 是 说 ， 网 络 中 连接 “ 岛 ” 的 隧道 不 能 被 恰当 地 分 配 。 有 了 时候 ， 在 一 个 物理 连接 
上 创建 多 个 隧道 会 造成 拥塞 。 

Paul 等 [5] 提 出 了 一 个 支持 路 径 聚 合 和 分 级 路 由 方案 的 可 靠 多 播 传输 协议 (RMTP)。 

Whetten 和 Taskale[6] 对 支持 前 向 纠 错 (FEC) 的 可 靠 多 播 传 输 协 议 工 (RMTPI ) 进行 了 介 
绍 ， 它 主要 用 于 多 媒体 数据 的 实时 传播 。 
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16.2.2 ”实时 传输 协议 (RTP) 


最 初 的 因特网 设计 采用 尽力 型 服务 ， 这 对 于 FTP 和 E-mail 等 应 用 来 说 是 足够 的 。 然 而 ， 
对 于 实时 多 媒体 应 用 ， 它 就 不 是 很 适合 了 。 实 时 传输 协议 用 于 传输 实时 数据 〈 比 如 视频 和 音 
频 流 ,通常 应 用 在 视频 和 音频 会 议 中 )。 它 主要 用 于 多 播 ， 尽管 它 也 可 以 应 用 在 单 播 中 。 例如 ， 
它 已 经 在 MBone 的 视频 会 议 nv[3]、Netscape LiveMedia、Microsoft Netmeeting 和 Intel 
Videophone 中 使 用 。 | 
实时 传输 协议 〈Real Time Protocol, RTP) 通常 运行 在 UDP 协议 上 ，UDP 协议 提供 高 效 (但 
可 靠 性 不 高 ) 的 无 连接 的 数据 报 服务 。 这 里 采用 UDP 而 不 是 TCP 的 原因 有 两 个 。 首 先 ，TCP 是 
一 个 面向 连接 传输 协议 ， 因 此 在 多 播 环 境 中 它 的 容量 就 很 难 扩充 。 其 次 ，TCP 协议 通过 重新 传输 
错误 的 和 丢失 的 数据 包 来 达到 可 靠 性 的 要 求 。 正 如 我 们 上 文中 提 到 的 ， 在 多 媒体 数据 传输 的 过 程 
中 ， 可 靠 性 不 是 最 重要 的 ， 推 迟到 达 的 重 传 的 数据 包 在 实时 应 用 中 是 没有 用 处 的 。 
既然 UDP 不 能 保证 数据 包 按 最 初 的 顺序 到 达 〈 不 考虑 多 数据 源 的 同步 )， 实 时 传输 协议 需要 
创建 时 间 焉 和 排序 机 制 来 保证 数据 的 有 序 性 。RTP 在 每 个 数据 包 的 头 中 引入 了 如 下 附加 参数 [7]; 
。 有 效 载荷 类 型 ”指出 媒体 数据 类 型 和 它 的 编码 方案 (比如 PCM、H.261/H.263、MPEG1、2 
和 4 音频 /视频 等 )， 这 样 接收 者 就 会 知道 怎样 将 这 些 数据 解码 。 
。 时 间 故 ”是 RTP 最 重要 的 机 制 。 时 间 戳 用 于 记录 数据 包 前 八 个 字 节 被 读 取 的 时 间 ， 它 是 由 
发 送 者 设置 的 。 利 用 时 间 惟 ， 接 收 者 可 以 以 正确 的 时 间 顺 序 播放 视频 和 音频 ， 并 在 多 数据 
源 《〈 比 如 视频 和 音频 ) 的 情况 下 把 这 些 流 媒体 同步 。 
。 序列 号 ”是 对 时 间 惟 功能 的 一 个 补充 。 每 发 送 一 个 RTP 数据 包 ， 序 列 号 就 加 1， 以 保证 所 
有 的 数据 包 能 被 接收 者 重新 按 顺 序 排列 。 这 个 要 求 是 必须 的 ， 比 如 一 个 视频 数据 帧 的 所 有 
数据 包 都 具有 相同 的 时 间 戳 ， 如 果 只 按照 时 间 惟 进行 排序 的 话 是 不 够 的 。 
。 同步 源 (SSRC) ID ”用 于 确定 不 同 的 多 媒体 数据 源 〈 比 如 音频 、 视 频 )。 如 果 数 据 是 从 同 
一 个 源 〈 翻 译 器 、 合 成 器 ) 发 出 的 ， 它 们 便 会 具有 相同 的 同步 源 ID 以 保证 它们 的 同步 。 
。 参 与 流 源 (CSRO) ID 确定 参与 传输 的 数据 源 ， 比 如 音频 会 议 的 所 有 发 言 者 。 
图 16-3 显示 的 是 RTP 的 头 格式 ， 前 12 个 八 位 组 是 固定 的 格式 ， 后 面 的 0 或 多 个 32 位 参与 
流 源 ID 是 可 选 的 。 
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图 16-3 RTP 的 包头 


第 0 位 和 第 1 位 是 实时 传输 协议 的 版 本 号 , 第 2 位 (P) 声明 了 有 效 载荷 ， 第 3 CX) 声明 
了 数据 头 的 扩展 , 第 4 位 到 第 7 位 是 4 位 的 CSRC 计数 器 , 它 指出 在 固定 格式 后 面 的 CSRC ID 的 
个 数 。 

第 8 il (M) 指出 了 它 是 音频 帧 的 第 一 个 数据 包 还 是 视频 帧 的 最 后 一 个 数据 包 。 因 为 音频 帧 
在 收 到 第 一 个 数据 包 的 时 候 即 可 被 播放 ， 而 视频 帧 则 须 等 到 最 后 一 个 数 到 达 之 后 才 可 被 播放 。 第 
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9 位 到 第 15 位 指出 有 效 载荷 的 类 型 ， 第 16 位 到 第 31 位 是 序列 号 ， 后 面 跟着 32 MIN RRA 32 
位 的 同步 源 人 D。 
16.2.3 ”实时 控制 协议 (RTCP) 

实时 控制 协议 (Real Time Control Protocol, RTCP) 是 一 个 与 RTP 同时 存在 的 协议 。 它 通过 
向 服务 器 (发 送 者 ) 提供 数据 传输 质量 的 反馈 来 监控 QoS 的 变化 ， 同 时 传递 有 关 多 方 会 议 的 参与 
者 信息 。RTCP 同时 提供 视频 、 音 频 同步 的 必要 信息 ， 即 使 它们 是 在 不 同 的 媒体 流 中 传送 的 。 

RTCP 有 5 种 类 型 的 数据 包 : 

D 接收 者 报告 RR》 提供 传输 质量 的 反馈 (包括 最 后 接收 到 的 数据 包 编 号 ， 技 失 的 包 的 编 
号 ， 拌 动 和 计算 传输 延迟 的 时 间 惟 等 )。 

2) 发 送 者 报告 (SR) 提供 接收 到 的 RR 报告 的 信息 ， 包 括 发 送 的 数据 包 的 数量 / 字 节 数 等 。 

3) 数据 源 描述 ‘SDES) 提供 数据 源 的 信息 (E-mail 地 址 、 电 话 号 码 、 参 与 者 的 姓名 )。 

4) 终结 符 表示 结束 。 

5) 应 用 程序 特定 功能 (APP)， 为 未 来 的 扩展 特性 提供 空间 。 

RTP 和 RTCP 数据 包 通 过 不 同 的 端口 发 送 到 相同 的 IP 地 址 〈 单 播 或 者 多 播 )。 

16.2.4 AAMEN (RSVP) 

资源 预 禄 协议 (Resource ReSerVation Protocol, RSVP) 是 为 了 预 留 因特网 资源 而 建立 的 协议 。 
前 面 讨论 的 RIP 协议 并 不 能 解决 QoS 控制 的 问题 ,开发 RSVP[8] 主 要 是 为 了 得 到 令 人 满意 的 QoS， 
它 通常 是 用 在 多 播 中 ， 尽 管 它 也 可 以 应 用 在 单 播 中 。 

一 个 典型 的 被 RSVP 支持 的 通信 模型 可 能 由 处 于 不 同 多 播 组 的 m 个 发 送 者 ，n 个 接收 者 组 成 
(如 图 16-4a 所 示 ，m=2，n=3， 两 个 多 播 组 的 树 分 别 用 实 线 箭头 和 虚线 箭头 表明 )。 在 广播 的 一 个 
特例 中 ，m=1; 而 在 音频 和 视频 会 议 中 ， 每 个 主机 同时 扮演 着 发 送 者 和 接收 者 的 角色 ， 即 m=n。 

RSVP 的 主要 挑战 是 多 个 发 送 者 和 接收 者 同时 竞争 有 限 的 网 络 带 宽 ， 接 收 者 根据 需求 内 容 和 
需求 QoS 的 不 同 而 分 成 不 同 的 种 类 ， 它 们 还 可 以 在 任意 时 刻 动态 地 加 入 或 者 退出 多 播 组 。 

RSVP 中 最 重要 的 消息 就 是 Path 和 Resv。Path 消息 由 发 送 者 创建 ， 辣 时 通过 多 播 RA) 
传送 到 目的 地 址 。 它 包括 有 关 发 送 者 和 路 径 〈 比 如 前 一 个 RSVP 节点 ) 的 信息 ， 这 样 接收 者 可 以 
找到 反 向 的 路 径 ， 通 过 它 来 发 送 资源 预 留 消息 。Resv 消息 由 期 望 得 到 预 留 资源 的 接收 者 发 送 。 

。RSVP 是 接收 者 发 起 的 ”一 个 接收 者 〈 在 多 播 扩展 树 的 时 节点 ) 初始 化 一 个 资源 预 留 请 求 

Resv， 该 请 求 反 向 传送 给 数据 的 发 送 者 ， 但 它 并 不 是 必须 要 传递 给 发 送 者 。 一 个 资源 预 留 
请 求 在 路 由 器 上 可 以 被 已 经 存在 的 、 由 同一 会 话 中 其 他 用 户 创建 的 请 求 合并 。 合 并 后 的 请 
求 信息 要 求 的 带宽 是 整合 在 一 起 的 所 有 请 求 中 最 大 的 带宽 。 这 种 用 户 发 起 的 方案 可 以 达到 
很 大 的 规模 ， 辣 时 它 满足 了 用 户 的 不 同 需 要 。 

。 RSVP 只 创建 软 状 态 ”接收 者 主机 必须 靠 定 期 发 送 资源 预 留 信 息 来 维持 这 个 软 状 态 ， 否 则 
这 个 状态 便 会 过 期 。 初 始 化 消息 和 后 继 的 刷新 消息 间 没 有 区 别 。 如 果 接 收 者 的 资源 预 留 要 
求 发 生 了 变化 ， 系 统 便 会 自动 根据 带 有 新 参数 的 刷新 请 求 信息 更 新 状态 。 因 此 ，RSYV 方案 
具有 很 高 的 动态 性 。 

图 16-4 描述 了 一 个 简单 的 网 络 。 该 网 络 有 2 个 发 送 者 (S1，S2)， 三 个 接收 者 (R1, R2, R3) 
和 4 个 路 由 器 (A，B，C，D)。 图 16-4a 显示 S1 和 S2 沿 着 各 自 的 路 径 发 送 Path 信息 给 R1，R2 
和 R3。 在 图 16-4b 和 16-4c 中 ，R1 和 R2 分 别 向 S1 和 S2 发 送 Resv 消息 请 求 保留 资源 。 在 .C 到 
A 的 路 径 上 ， 因 为 Ri 和 R 请 求 的 是 不 同 的 数据 流 资源 ， 所 以 它们 各 自 的 隧道 不 可 被 合并 。 在 图 
16-4d 中 ，R2 和 R3 也 向 S1 发 送 Resv 消息 请 求 资源 。R3 的 请 求 与 前 面 RI 的 请 求 在 A 处 合并 ， 
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而 R2 的 请 求 与 R1 的 请 求 在 C 处 合并 。 
任何 可 能 要 求 更 高 带宽 的 QoS 变 体 都 能 通过 修改 保留 状态 的 参数 来 进行 处 理 。 





a) 发 送 者 S1 A S2 发 出 它们 的 PATH b) 接收 者 Ri 发 出 RESV 消息 给 S1 
消息 给 接收 者 R1I、R2 和 R3 





c) 接收 者 R2 发 出 RESV 消息 给 S2 d) 接收 者 R2 和 R3 也 向 S1 发 送 RESV 消息 
图 16-4 使 用 RSVP 的 网 络 资源 预 留 的 一 个 情形 


16.2.5 ”实时 流 协 议 (RTSP) 

音频 流 和 视频 流 

在 早期 ， 多 媒体 数据 以 整个 文件 的 形式 通过 网 络 (通常 使 用 低速 链 路 ) 传输 ， 接 收 者 首先 将 
它 存盘 ， 然 后 在 本 地 硬盘 中 打开 它 。 近 来 ， 越 来 越 多 的 音频 和 视频 数据 通过 媒体 服务 器 以 数据 
流 一 一 音频 流 和 视频 流 的 方式 传输 到 客户 端 ， 客 户 端 接 到 数据 流 后 立即 将 其 解码 。 

通常 情况 下 ， 接 收 者 会 设置 一 个 缓冲 空间 来 预先 取得 到 来 的 流 媒体 。 等 到 缓冲 区 中 的 内 容 达 
到 一 定数 量 的 时 候 ， 缓 冲 区 内 的 压缩 数据 会 被 解压 然后 播放 。 显 然 ， 缓 冲 空间 要 足够 大 才能 处 理 
可 能 的 数据 抖动 ， 同 时 缓冲 空间 还 要 保证 能 连续 、 平 稳 的 播放 。 另 一 方面 ， 缓 冲 空间 太 大 往往 会 
造成 不 必要 的 初始 延迟 ， 这 种 情况 在 音频 和 视频 会 议 等 交互 式 应 用 中 是 非常 不 希望 出 现 的 。 

实时 流 协 议 

实时 流 协议 (Real Time Streaming Protocol, RTSP) 用 于 在 客户 端 和 提供 媒体 资源 的 服务 器 
之 闻 进 行 通信 ， 图 16-5 指出 了 一 种 由 四 个 RTSP 操作 组 成 的 可 能 场景 。 

1) 请 求 表示 描述 ”客户 端 发 出 一 个 DESCRIBE 要 求 给 媒体 资源 服务 器 ， 希 望 获取 服务 器 的 
表示 的 描述 ， 如 媒体 的 类 型 〈 音 频 、 视 频 或 图 片 等 )、 帧 率 、 分 辨 率 、 编 解码 格式 等 。 
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2) 建立 会 话 ”客户 端 发 出 SETUP 信息 来 通知 服务 器 发 送 目的 地 的 P 地 址 、 端 口号 、 协 议和 
TIL (对 于 多 播 )。 在 服务 器 返回 一 个 会 话 ID 后 ， 该 会 话 即 被 建立 。 

3) 请 求 和 接收 媒体 ” 当 收 到 PLAY 消息 后 ， 服 务 器 开始 使 用 RIP 传送 音频 /视频 流 数据 。 数 
据 流 后 面 是 RECORD 或 者 PAUSE 消息 。RTSP 还 支持 其 他 的 VCR 命令 ， 如 FAST-FORWARD 和 
REWIND 等 。 在 会 话 的 过 程 中 ， 客 户 端 定期 向 服务 器 发 送 RTCP 数据 包 来 提供 接收 到 QoS 的 反馈 
信息 (如 16.2.3 节 中 的 讨论 )。 

4) 会 话 关闭 TEARDOWN 用 于 关闭 这 个 会 话 。 














OPTIONS 请 求 
OPTIONS 响应 








PLAY 请 求 
PLAY 响应 








ET 


RTP 音频 


RE OR eR 














TEARDOWN 请 求 





图 16-5 RTSP 操作 的 一 个 可 能 场景 


16.2.6 ”因特网 电话 技术 


公共 交换 电话 网 络 (Public Switched Telephone Network, PSTN) 依靠 铜 导线 传输 模拟 声音 信 
号 。 它 提供 了 可 靠 而 且 低 价 的 语音 及 传真 服务 。 在 20 世纪 80 年 代 和 90 年 代 ， 调 制 解 调 器 是 一 
种 “在 语音 网 络 上 传输 数据 ”的 常用 方法 。 事 实 上 ， 它 在 ADSL 和 电缆 调制 解 调 器 出 现 之 前 是 很 
有 优势 的 。 

随 着 个 人 电脑 和 因特网 更 加 便利 和 普及 ， 越 来 越 多 的 语音 和 数据 通信 以 数字 形式 进行 (如 
ISDN)。“ 在 数据 网 络 上 传输 的 语音 ” 特别 是 Voice Over IP〈VoIP〉 的 出 现 ， 吸 引 了 大 量 的 研究 
人 员 及 用 户 群 体 的 注意 力 。 随 着 网 络 带宽 不 断 增 加 ， 多 媒体 数据 压缩 的 质量 不 断 提 高 ， 因 特 网 电 
话 技术 成 为 了 现实 。 随 着 技术 的 不 断 发 展 ， 因 特 网 电话 技术 不 仅仅 局 限于 语音 (VoIP) 一 一 它 集 
成 了 语音 、 视 频 和 数据 等 服务 。 
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因特网 电话 技术 与 普通 老式 电话 服务 (POTS 相 比 ， 主 要 好 处 如 下 : 
。 它 在 集成 服务 (如 语音 邮件 、 视 频 会 议 、 音 频 会 议和 移动 电话 等 ) 方面 提供 更 大 的 灵活 性 
和 扩展 性 。 
。 它 通过 数据 包 进 行 交换 ， 而 不 是 通过 数据 通路 进行 交换 。 这 样 ， 网 络 的 使 用 效率 更 高 ( 音 
频 通 信 会 引起 数据 流量 剧 增 ， 而 且 它 使 用 VBR 编码 格式 )。 
。 随 着 多 播 或 者 多 点 通信 技术 的 发 展 ， 多 方 通 话 技术 不 会 比 传统 的 两 方 通话 技术 困难 很 多 。 
。 改进 的 多 媒体 数据 压缩 技术 可 以 支持 不 同 程度 的 QoS， 并 且 可 以 根据 网 络 的 流量 情况 动态 
调整 QoS， 这 是 对 POTS 中 “要 么 全 部 服务 ， 要 么 没有 服务 ”的 一 种 改进 。 
。 可 以 开发 优秀 的 图 形 用 户 接口 来 显示 一 些 可 用 的 特性 和 服务 , 监控 通话 状态 和 通话 进程 等 。 
如 图 16-6 所 示 ， 因 特 网 电话 技术 的 实时 音频 (和 视频 ) 的 传输 是 由 16.2.2 节 中 描述 的 RTP 所 
支持 的 〈 它 的 控制 协议 是 RTCP)。 媒 体 流通 过 RTSP 处 理 ， 网 络 资源 预 留 是 通过 RSVP 所 管理 的 。 
454 因特网 电话 技术 不 是 简单 的 因特网 上 的 流 媒 体 服 务 ， 因 为 它 需要 一 种 复杂 的 信 令 协议 。 流 媒 
体 服务 器 可 以 通过 一 个 统一 资源 标识 符 CURD 轻松 识别 ， 但 一 个 因特网 电话 通话 能 否 成 功 取决 


455 | 于 接收 者 的 当前 位 置 、 接 收 者 的 网 络 容量 、 可 用 性 以 及 接收 者 是 否 愿意 进行 通话 等 条 件 的 约束 。 
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图 16-6 因特网 电话 技术 的 网 络 协议 结构 


下 面 对 H.323 标准 和 一 种 最 常用 的 信 令 协议 一 一 会 话 启 动 协议 〈SIP) 进行 大 致 描述 。 

1. H.323 

H.323[11，12] 是 一 个 基于 数据 包 的 在 无 需 QoS 保障 的 网 络 上 (局 域 网 、 因特网 、 无 线 网 络 等 ) 
进行 多 媒体 通信 服务 的 标准 。 它 指定 了 信 令 协议 ， 同 时 描述 了 终端 、( 视 频 会 议 的 ) 多 点 控制 单 
元 ， 集 成 全 球 交换 电话 网 络 (General Switched Telephone Network, GSTN® ) 数据 终端 的 因特网 
电话 技术 的 网 关 。 

H.323 的 信和 令 发 送 过程 由 两 个 部 分 组 成 : 

D 通话 建立 ”通话 的 发 起 者 首先 给 网 关 管理 器 (GK) 发 送 一 个 登记 、 接 纳 和 状态 (RAS) 
的 使 用 准许 请 求 《ARQ) 消息 ， 其 中 包含 接收 方 的 电话 号 码 和 姓名 。 网 关 管 理 器 可 以 选择 批准 这 
个 请 求 或 者 给 出 诸如 “安全 性 遭 到 破坏 ”或 者 “网 络 带宽 不 足 ” 之 类 的 原因 来 拒绝 这 个 请 求 。 

2) 容量 交换 ”系统 将 建立 一 个 H.245 控制 通道 ， 它 的 第 一 步 就 是 交换 通话 发 起 者 和 接收 者 
的 容量 信息 ， 比 如 这 是 一 个 视频 、 音 频 还 是 数据 传输 ， 是 否 经 过 压缩 和 加 密 等 。 

H.323 提供 了 对 音频 传输 的 强制 支持 和 对 数据 和 视频 传输 的 可 选择 性 支持 。 它 与 一 系列 相关 
的 处 理 因 特 网 电话 通话 控制 与 数据 压缩 的 软件 标准 协同 工作 。 下 面 是 一 些 相关 的 标准 ; 


O POTS 指 普通 老式 电话 服务 ， 它 不 包括 诸如 呼叫 等 待 、 呼 叫 转 移 等 新 的 特性 。 
© GSTN 与 PSTN (公共 交换 电话 网 络 ) 同 义 。 
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(1) 信 令 与 控制 

© H.225 ”通话 控制 协议 ， 包 括 信 令 发 出 、 注 册 、 准 许 、 数 据 打 包 和 媒体 流 同 步 等 。 

。H.245 ”多 媒体 通信 的 控制 协议 。 比 如 ， 打 开 和 关闭 流 媒体 的 通道 、 获 取 GSTN 和 因特网 
电话 之 间 的 网 关 。 

© H.235 H.323 和 基于 H.245 的 多 媒体 终端 的 安全 与 加 密 。 

(2) 音频 编 解码 器 

。G.711 48. 56 或 64kbps 通道 上 的 3.1kHz 音频 编 解 码 器 。G.711 描述 普通 电话 韵 脉冲 编码 
调制 。 

。G.722 48, 56 或 64kbps 通道 上 的 7kHz 音频 编 解 码 器 。 

e G.723.1 5.3 或 6.3kbps 通 道上 的 3.1kHz 音频 编 解 码 器 。(VoIP 论坛 采用 G.723.1 作为 VoIP 
的 编 解 码 器 。) 

。G.728 16kbps 通道 上 的 3.1kHz 音频 编 解码 器 。 

。G.729、G.729a 8kbps 通道 上 的 3.1kHz 音频 编 解 码 器 。( 帧 中 继 论坛 采用 G.729 作为 帧 
中 继 语音 的 编 解码 器 。) 

(3) 视频 编 解码 器 

。H.261 是 px64 kbps (p > 1) 的 视频 编 解 码 器 。 

。H.263 在 GSTN 上 的 低 码 率 〈 低 于 64kbps) 视频 的 编 解码 器 。 

(4) 其 他 相关 的 标准 

。H.320 在 ISDN 网 络 上 的 原始 视频 会 议 标准 。 

。H.324 H.320 的 扩展 ， 用 于 GSTN 网 络 上 的 视频 会 议 的 标准 。 

。 工 120 ”实时 数据 和 会 议 控制 。 

2. 会 话 启 动 协议 一 一 一 个 信 令 的 协议 

会 话 启动 协议 〈Session Initiation Protocol, SIP) [10] 是 一 个 在 因特网 电话 中 负责 建立 和 终止 


会 话 的 应 用 层 控制 协议 。 这 些 会 话 不 仅 限 于 VoIP 通信 一 一 它们 还 包括 多 媒体 会 议和 多 媒体 分 布 。 


F HTTP 类 似 ，SP 是 一 个 基于 文本 的 协议 ， 这 一 点 与 H.323 不 同 。SIP 同时 还 是 一 个 客户 端 - 


服务 器 协议 。 通话 的 发 起 者 (客户 端 初始 化 一 个 请 求 ， 服 务 器 对 它 进行 处 理 并 响应 。 一 共有 三 
种 类 型 的 服务 器 。 代 理 服务 器 和 重 定向 服务 器 用 于 转发 通话 请 求 。 它 们 之 间 的 区 别 是 ， 代 理 服 务 
器 将 请 求 转发 给 下 一 跳 服务 器 ， 而 重 定向 服务 器 向 客户 端 返回 下 一 跳 服 务 器 的 地 址 ， 这 样 可 以 将 
通话 请 求 分 段 重 定向 到 目的 地 。 


第 三 种 类 型 的 服务 器 是 位 置 服务 器 ， 它 用 来 找到 当前 用 户 的 位 置 。 位 置 服务 器 通常 与 重 定向 


服务 器 或 代理 服务 器 进行 通信 。 这 些 通信 可 以 利用 finger 协议 、rwhois 协议 、 轻 量 目录 访问 协议 
(Lightweight Directory Access Protocol，LDAP)， 或 者 其 他 基于 多 播 的 协议 来 确定 用 户 的 地 址 。 


SIP 可 以 通过 E-mail、 新 闻 组 、 网 页 或 目录 、 会 话 通 告 协议 SAP， 一 种 多 播 协 议 ) 来 广播 


它 的 会 话 。 


客户 端 可 以 调用 的 方法 (命令 ) 有 : 

e INVITE 邀请 通话 接收 者 参与 到 通话 中 。 

。ACK 答复 这 个 邀请 。 

。OPTIONS 不 通过 建立 通话 来 获取 有 关 媒 体 属性 的 信息 。 
。CANCEL 终结 通话 邀请 。 

。 BYE 终结 通话 。 

。REGISTER 发 送 用 户 的 位 置信 息 给 注册 机 (一 个 SIP 服务 器 )。 


456 


457 
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图 16-7 给 出 在 通话 发 起 者 初始 化 一 个 SP 会 话 时 的 一 个 可 能 的 步骤 : 

第 1 步 : 通话 发 起 者 向 本 地 代理 服务 器 PI 发 送 一 个 INVITE johnehome .ca 消息 。 

第 2 步 : 代理 服务 器 使 用 DNS 来 定位 johnehome . ca 的 地 址 并 返回 给 服务 器 ,同时 向 该 地 
址 发 送 一 个 请 求 。 

第 3、4 步 : johnehome .ca 并 没有 登录 到 服务 器 。 重 定向 服务 器 向 邻近 的 位 置 服务 器 发 出 
请 求 ， 并 得 到 John 的 当前 地 址 john@work.ca. 

Bot: 因为 当前 服务 器 是 一 个 重 定向 服务 器 ， 它 把 john@work.ca 的 地 址 返回 给 代理 服 
务 器 P1。 

第 6 步 : 通过 下 一 个 代理 服务 器 P2 尝试 连接 john@work .ca。 

第 7、8 步 : P2 与 它 的 位 置 服务 器 协商 并 获取 了 John 的 本 地 地 址 一 一 john_doe@ my. 
work.cao 

$9. 104: 连接 下 一 个 代理 服务 器 P3，P3 将 邀请 信息 发 送 到 客户 端 〈 通 话 接收 者 )。 

第 11 到 第 14 步 : John 在 他 的 本 地 位 置 同 意 了 通话 请 求 , 并 将 该 确认 消息 返回 给 通话 发 起 者 。 


aa | RESO 
SIP 客户 端 〈 呼 叫 方 ) 服务 器 
(m. 代理 服务 器 ae 
(P1) 上 
N N he se 
HN a EE S 定位 服务 器 
全 代理 服务 器 F 


SIP 客户 端 (被 叫 方 ) 
16-7 SP 会 话 发 起 时 的 一 个 可 能 情形 


SIP 也 可 以 使 用 会 话 描述 协议 SDP) 来 收集 通话 接收 者 处 的 媒体 属性 的 信息 。 

3. 会 话 描述 协议 

顾名思义 ， 会 话 描述 协议 (Session Description Protocol, SDP) 描述 多 媒体 的 会 话 。 同 SIP 
类 似 ，SDP 描述 是 文本 格式 的 。 它 包括 媒体 流 〈 音 频 、 视 频 、 白 板 会 话 等 ) 的 数量 和 类 型 ， 每 个 
流 的 目的 地 址 〈 单 播 或 者 多 播 )， 发 送 和 接收 使 用 的 端口 号 以 及 媒体 的 格式 《有效 载荷 类 型 )。 在 
初始 化 一 个 通话 的 时 候 ， 通 话 发 起 人 将 SDP 信息 放 在 INVITE 消息 中 。 被 叫 方 响 应 这 个 SDP 信 
息 ， 有 时 候 还 根据 它 的 媒体 属性 修改 SDP 信息 的 内 容 。 


16.3 ATM 网 上 的 多 媒体 


16.3.1 ATM 网 上 的 视频 码 率 


ATM 论坛 支持 多 种 类 型 的 视频 码 率 : 
。 恒 定 码 率 (Constant Bit Rate, CBR) ”例如 ， 在 未 经 压缩 的 视频 或 者 常数 码 率 编码 的 视频 
中 采用 。 上 文 提 到 过 ， 如 果 给 CBR 分 配 的 码 率 太 低 ， 就 会 出 现 视频 内 容 的 丢失 和 扭曲 。 
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。 可 变 码 率 (Variable Bit Rate, VBR) ”压缩 视频 中 最 常用 的 视频 码 率 。 可 以 被 进一步 分 成 
适合 压缩 视频 的 实时 可 变 码 率 (rt-VBR) 和 适合 特定 QoS 的 非 实时 可 变 码 率 (nrt-VBR)。 
。 可 用 码 率 (Available Bit Rate, ABR) ”在 基于 IP 的 服务 中 ,数据 传输 会 因为 拥塞 而 被 取 458 
消 和 缓冲 。 有 时 可 以 指定 信 元 丢失 率 和 最 小 单元 数据 率 。 2 
。 REWE (Unspecified Bit Rate, UBR) ”不 提供 对 任何 质量 参数 的 保证 。 459 


16.3.2 ATM ate 


ATM 适 配 层 (ATM Adaptation Layer, AAL) 支持 不 同 格式 的 用 户 数据 和 ATM 数据 流 之 间 的 

相互 转换 。 下 面 列 出 了 5 种 类 型 的 AAL 协议 : 

。AAL 类 型 1 支持 实时 、 恒 定 码 率 (CBR) 的 面向 连接 的 数据 流 。 

。AAL 类 型 2 ”原本 用 来 支持 可 变 码 率 的 压缩 视频 和 音频 。 然 而 ， 该 协议 从 来 没有 被 具体 化 ， 
目前 也 没有 被 使 用 。 

。AAL 类 型 3 和 AAL 类 型 4 它们 的 功能 类 似 , 因此 可 以 被 合并 成 一 个 类 型 : AAL 类 型 3/4。 
它 支 持 面向 连接 或 无 连接 的 〈 非 实时 ) 数据 服务 的 可 变 码 率 (VBR). 

。AAL 类 型 5 它 是 为 多 媒体 数据 传输 而 引入 的 新 协议 。 它 承诺 支持 所 有 类 型 的 数据 和 视频 
服务 (包括 从 CBR 到 UBR, M rt-VBR 到 nrt-VBR) 的 支持 。 它 假设 AAL 之 上 的 层次 是 
面向 连接 的 ， 而 在 AAL 下 面 的 ATM 层 是 低 错 误 率 的 。 

如 图 16-8 所 示 ， 在 汇集 子 层 (Convergence Sublayer, CS) 和 分 组 和 重组 子 层 (Segmentation 

And Reassembly，SAR) 中 ， 报 头 和 报 尾 被 添加 到 原始 用 户 数据 中 。 它 们 最 终 形成 一 个 含有 5 字 
节 ATM 头 的 53 字 节 ATM 信 元 。 


























L 用 户 数据 
报头 一 一 最 多 为 65535 +t WE 
Se 1 
= as CS 输出 
ZO AOON `、`、 未 用 
tee 应 一 nn SAR 输出 
+ 48 Fim 48 FH 48 FH 
x | 图 一 lo; = — amet 
+53 字 节 一 ”< 一 53 字 节 一 ~ <53 字 节 一 > 


图 16-8 CS 和 SAR 子 层 的 报头 和 报 尾 


存在 五 种 不 同类 型 的 AAL 很 大 程度 上 是 由 历史 原因 造成 的 。 特 别 是 ， 除了 类 型 5 之 外 的 所 
有 AAL 类 型 是 由 电信 业 开发 的 ， 它们 基本 上 不 适合 交互 式 多 媒体 的 应 用 和 服务 [13]。 表 16-3 给 
出 了 三 种 AAL 类 型 之 间 的 比较 ， 下 面 是 AAL3/4 与 AAL5 间 的 比较 : 


表 16-3 AAL 类 型 的 比较 
0 字 节 
1 或 2 字 节 
47 或 46 字 节 44 字 节 





CS 报头 / 报 尾 载荷 
SAR 报头 / 报 尾 载 荷 
SAR 载荷 
CS 校 验 和 

SAR 校 验 和 
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© AAL 3/4 中 为 每 个 SAR 信 元 指派 4 个 字 节 的 头 ， 而 AAL 5 在 这 一 子 层 上 则 没有 头 。 因 为 
有 众多 的 SAR 信 元 , 省略 信 元 的 头 在 AALS 中 是 很 大 的 优化 ,当然 这 只 能 是 在 现代 相对 无 
错误 的 光纤 技术 前 提 下 才能 达到 的 。 

。 作 为 SAR 报 尾 的 一 部 分 ，AAL3/4 含有 一 个 验证 错误 的 校 验 和 字段 。 除 去 SAR 头 之 外 ,该 
校 验 和 只 有 10 位 长 ， 这 么 短 的 校 验 域 是 不 够 的 。AALS 将 校 验 和 工作 放 在 CS 子 层 上 并 给 
校 验 和 分 配 4 个 字 节 的 长 度 。 同 样 的 ， 它 是 基于 位 传输 几乎 不 出 现 错 误 的 假设 建立 的 。 然 
而 ， 在 AALS 进行 错误 检查 的 时 候 ， 它 可 以 从 这 么 长 的 校 验 和 字段 中 获取 足够 的 信息 。 

现在 ，AAL 5 已 经 取代 了 AAL 3/4。ATM 论坛 提出 除了 在 CBR 服务 中 使 用 AAL 1 外 ， 其 他 

的 服务 都 可 使 用 AAL 5。 关 于 AAL 的 详细 介绍 ， 读 者 可 以 参考 Tanenbaumf13] 和 Stallings[14]. 

表 16-4 总 结 了 使 用 ATM 和 不 使 用 ATM 的 情况 下 视频 的 传输 。 


表 16-4 ”对 数字 视频 传输 的 支持 


可 扩展 到 几 Gbps 












非 ATM 支持 
最 多 100Mbps 











延迟 和 拌 动 
CBR 或 VBR 


有 QoS 支持 
AAL 1, 2. 5, LAN 竞争 电路 竞争 等 
多 播 交换 ， 或 永久 虚 电路 


16.3.3 MPEG-2 2383) ATM 


ATM 论坛 认为 ，MPEG-2 应 该 通过 AALS 协议 来 传输 。 正 如 我 们 在 11.3.3 节 中 提 到 的 那样 ， 
在 默认 情况 下 ， 传 输 数 据 流 CTS) 中 的 每 两 个 MPEG-2 数据 包 (每 个 包 188 字 节 ) 将 会 被 映射 到 
一 个 AALS5 服务 数据 单元 中 [15]。 

在 建立 一 个 虚拟 的 通道 连接 的 时 候 ， 必 须 确定 下 面 的 QoS BR: 

。 最 大 信 元 传输 延迟 〈 延 时 ) 

。 最 大 信 元 延迟 抖动 

。 信 元 丢失 率 (CLR) 

。 信 元 错误 率 (CER) 

。 信 元 块 严重 出 错 率 (SECBR) . 

— SALT AE ERATE (Audio-Visual Service-Specific Convergence Sublayer, AVSSCS) 
也 被 提出 ， 用 来 在 AALS 上 使 用 ABR 服务 进行 视频 传输 。 
16.3.4 ATM 上 的 多 播 

与 在 UDP 上 作为 “尽力 型 ”服务 提供 的 卫 多 播 相 比 ，ATM 上 的 多 播 网 络 有 了 更 多 的 挑战 
[16，17]: 

。 ATM 是 面向 连接 的 ， 因 此 ，ATM 上 的 多 播 必须 建立 全 部 的 多 点 连接 。 

。 ATM 上 的 QoS 必须 在 连接 建立 的 时 候 进行 协商 ， 并 且 被 全 部 的 交换 机 所 知晓 。 

© AIM 很 难 支持 多 点 对 点 或 多 点 对 多 点 的 连接 ， 因 为 AAL 5 并 不 保存 多 路 复 用 器 的 编号 或 

者 顺序 号 。 如 果 在 接收 的 时 候 多 个 发 送 端的 信 元 有 一 定 的 重 又 ， 则 数据 就 不 能 在 接收 端 重 
新 正确 组 装 。 

可 扩展 的 有 效 ATM 24% (Scalable and Efficient ATM Multicast, SEAM) 和 共享 多 对 多 ATM 
预 留 (Shared Many-to-Many ATM Reservation, SMART) 是 两 种 在 ATM 上 进行 多 播 的 方法 。 前 
者 使 用 了 唯一 的 标识 符 ， 而 后 者 则 使 用 了 令 牌 方案 来 避免 信 元 重生 造成 的 混淆 。 


ISDN 和 ADSL 
IP 多 播 或 独立 多 播 协议 (PIM) 
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16.4 MPEG-4 的 传输 


MPEG-4 的 设计 是 由 万 维 网 上 的 多 媒体 应 用 而 激发 的 。 特 别 是 ， 多 媒体 〈 文 本 、 图 像 、 视 频 、 
音频 等 ) 对 象 和 场景 描述 〈 视 频 对 象 的 时 间 空 间 描述 ) 由 服务 器 发 出 ， 并 由 客户 端 解释 并 重新 组 
装 ， 这 样 可 以 极 大 地 减少 多 媒体 数据 在 万 维 网 上 的 传输 。 本 节 主 要 描述 多 媒体 传送 集成 框架 
(Delivery Multimedia Integration Framework, DMIF) 和 卫 上 的 MPEG-4 等 问题 。 


16.4.1 MPEG-4 中 的 DMIF 


DMIF 是 多 媒体 应 用 程序 和 多 媒体 数据 传输 之 间 的 接口 。 它 支持 远程 交互 式 网 络 访问 (IP、 
ATM, PSTN, ISDN 或 者 手机 )、 广 播 媒体 (卫星 或 者 电缆) 和 磁盘 上 的 本 地 媒体 。 

因为 接口 对 应 用 程序 来 说 是 透明 的 ， 所 以 只 要 建立 正确 的 DMIF， 单 一 个 程序 就 可 以 在 不 同 
的 传输 层 上 运行 。 

图 16-9 显示 了 三 种 通信 媒体 的 传输 集成 。 如 图 所 示 ， 本 地 应 用 与 统一 的 DMIF 应 用 程序 接口 
(DMIF Application Interface, DAI) 进行 交互 ， 将 应 用 的 请 求 翻译 成 特定 的 协议 信息 并 利用 三 种 
媒体 类 型 的 一 种 进行 传输 。 


本 地 DMIF 
ay | DAI ——— 
| 音频 /视频 对 象 
or | | en (I 本 地 服务 器 
ree. | 2 外 j = | 
wje” = 广播 
| Le i | | DNI 
人 | [| 已 场景 描述 | 本 地 文件 | | 
IN | \ | oe A j 
| 网 络 
DAI 远程 DMIF —-- 
r g Pa — 一 DNI 
| ~~ | igi 本 地 文件 | | 
~ | fate 








当 在 网 络 中 进行 传输 的 时 候 ，DMIF 并 不 知道 应 用 程序 的 存在 。 实 际 上 ， 为 了 管理 特定 网 络 
的 信 令 消息 ， 我 们 还 需要 额外 的 DMIF 网 络 接 口 (DMIF Network Interface, DNI). 

当 传 输 多 媒体 数据 的 时 候 ，DMIF 与 FTP 很 类 似 。 首 先 ， 使 用 SETUP 与 远程 网 络 站 点 建立 
一 个 会 话 。 第 二 步 ， 选 择 适 当 的 流 ， 并 同时 发 送 STREAM 请 求 信息 给 DMIF， 返 回 一 个 指向 发 生 
流传 输 的 独立 连接 的 指针 。 第 三 步 ， 建 立新 连接 ， 数 据 以 流 的 形式 传输 。 

在 广播 和 本 地 存储 的 情况 下 中 ， 应 用 程序 要 知道 数据 是 怎样 被 保存 和 传输 的 。 这 样 ， 它 成 为 
T DMIF 实现 的 一 部 分 。 

DMIF 内 置 在 QoS 监控 功能 中 ， 它 支持 持续 监控 、 特 定 的 QoS 查询 以 及 Qos 违反 通知 。 
16.4.2 IP 上 的 MPEG-4 


IP 网 络 上 的 MPEG-4 的 规范 是 由 MPEG Ail IETF 共同 开发 的 , 它 是 MPEG-4(ISO/I[EC14496-8) 
第 8 部 分 的 框架 和 IETF 中 的 一 个 提供 信息 的 REC. 
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MPEG-4 会 话 可 以 被 RTP. RTSP 和 HTTP 等 基于 IP 的 协议 所 传输 。 关 于 RIP 有 效 载荷 格式 
的 细节 在 IETF RFC 3016 中 有 详细 的 描述 。 简 而 言 之 ,一 般 RTP 有效 载荷 格式 (generic RTP payload 
format) 定义 了 从 膛 辑 MPEG-4 SL 数据 包 到 RTP 数据 包 的 映射 ， 而 FlexMux 有 效 载荷 格式 
(FlexMux payload format) 则 定义 了 FlexMux 数据 流 与 RTP 数据 包 的 映射 。 


16.5 “媒体 点 播 


媒体 点 播 (Media-on-demand, MOD) 涉及 许多 基本 的 多 媒体 网 络 通信 和 问题。 在 本 节 中 ， 我 
们 将 简要 介绍 交互 式 电 视 、 视 频 点 播 的 广播 方案 ， 以 及 缓冲 区 管理 的 一 些 内 容 。 


16.5.1 交互 式 电视 和 机 顶 盒 


交互 式 电视 (Interactive TV, ITV) 是 基于 家 庭 电 视 的 多 媒体 系统 。 它 支持 不 断 增 长 的 多 媒 
体 交 互 方式 ， 比 如 : 

。 电 视 〈 普 通电 视 、 订 阅 电视 、 付 费 电视 ) 

。 视频 点 播 (VOD ) 

。 信 息 服 务 (新闻 、 天 气 、 杂 志 、 体 坛 风云 等 ) 

。 交互 式 娱乐 (网 络 游戏 等 ) 

。 电子 商务 在 线 购物 、 股 票 交 易 ) 

。 访问 数 字 图 书馆 和 教学 资源 

数字 视频 广播 (Digital Video Broadcasting, DVB) 的 一 个 新 的 发 展 方向 是 多 媒体 家 庭 平台 
(Multimedia Home Platform，DVB-MHP)， 它 支持 上 述 的 所 有 功能 ， 同 时 还 支持 电视 上 的 电子 节 
目 指南 (EPG). 

ITV 与 常规 的 有 线 电视 的 主要 区 别 在 于 ，ITV 提供 了 与 用 户 的 互动 ， 所 以 它 需 要 两 路 的 通 
信 一 一 上 行 数据 流 〈 用 户 到 内 容 提 供 商 ) 和 下 行 数据 流 〈 内 容 提 供 商 到 用 户 )。 另 外 ，ITV 具有 更 
丰富 的 信息 和 多 媒体 内 容 。 

为 了 实现 ITV 的 上 述 功能 ， 用 户 还 需要 机 顶 盒 (Set-Top Box, STB). WE 16-10 所 示 ， 机 顶 
盒 主要 由 如 下 组 件 构成 










网 络 接口 和 通信 单元 











图 16-10 ”机顶盒 的 一 般 结构 
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。 网 络 接口 和 通信 单元 : 包括 调制 器 、 解 调 器 (用 来 从 模拟 频道 信号 中 获得 数字 流 )、 安 全 设 
备 ， 以 及 一 个 用 于 万 维 网 基本 协商 和 访问 数字 图 书馆 而 设置 的 专用 通信 通道 ， 它 同时 用 来 
提供 其 他 服务 和 进行 维护 。 
。 处 理 单元 ， 包 括 CPU、 存 储 器 和 为 STB 设计 的 特殊 用 途 的 操作 系统 。 
。 视 频 /音频 单元 : 包括 音频 和 视频 (MPEG-2 和 4) 解码 器 、 数 字 信号 处 理 器 (DSP)、 缓 冲 
区 和 D/A 转换 器 。 | 
。 图 形 处 理 单 元 ; 支持 实时 3D 动画 和 游戏 的 图 形 处 理 。 
。 外 设 控制 单元 ， 磁盘 、 音 频 、 视 频 IO 设备 〈 如 数字 摄像 机 )、CD/DVD 读 写 设备 等 的 控 
制 器 。 
15.4 节 中 我 们 介绍 了 不 同 的 接 入 网 ， 同 时 ， 我 们 还 对 它们 在 ITV 服务 中 传输 多 媒体 数据 的 效 
率 和 安全 性 进行 了 比较 。 
16.5.2 ”视频 点 播 的 广播 方案 


在 所 有 可 能 的 媒体 点 播 服务 中 ， 最 受 欢迎 的 大 概 就 是 电影 的 订阅 服务 : 在 高 速 的 网 络 中 ， 顾 
客 可 以 指定 他 们 想 要 看 的 电影 和 电影 的 播放 时 间 。 对 于 类 似 服务 的 统计 表明 ， 绝 大 多 数 顾客 想 看 
的 电影 集中 在 少数 (10~20 部 ) 流行 的 电影 中 (比如 , 新 上 映 的 电影 和 每 季 最 受 欢 迎 的 10 部 电影 )。 
这 使 得 对 这 些 电影 进行 多 播 和 广播 成 为 可 能 ， 因 为 许多 点 播 电影 的 客户 端 可 以 按照 他 们 的 需求 被 
放 入 到 相应 的 多 播 组 中 。 
评价 此 类 MOD 服务 的 重要 的 品质 参数 是 等 待 时 间 (延迟 )。 我 们 定义 接 入 时 间 为 从 客户 点 播 
电影 到 电影 开始 播放 所 需 等 待 时 间 的 上 界 。 
因为 我 们 已 经 知道 光纤 网 络 可 以 提供 极 高 的 带宽 ， 所 以 我 们 可 以 确信 ， 如 果 用 户 接 入 某 个 高 
速 的 网 络 中 ， 整 个 电影 可 以 在 相对 较 短 的 时 间 内 从 服务 器 传 给 客户 端 。 这 种 方式 的 一 个 问题 是 用 
户 要 在 客户 端 准备 足够 的 缓冲 空间 。 
1 RBH 
为 简单 起 见 ， 我 们 假设 所 有 的 电影 都 是 以 固定 码 率 (CBR》 来 进行 编码 的 ， 所 有 电影 具有 相 [464 
同 的 长 度 L (以 时 间 单位 来 进行 度量 )， 并 且 从 头 到 尾 连续 播放 没有 停顿 。 用 可 以 达到 的 带宽 W | ， 
除 以 媒体 的 播放 速率 b 得 到 带宽 比 B。 服 务 器 的 带宽 通常 被 分 成 个 逻辑 通道 (kK 之 1)。 465 
假设 服务 器 最 多 向 外 播放 M 部 电影 ， 所 有 电影 可 以 在 不 同 通道 上 循环 播放 。 这样 就 引入 了 一 
个 交错 广播 的 问题 。 图 16-11 显示 了 一 个 交错 广播 的 例子 ， 在 本 例 中 ，M=8，K=6。 


如 果 服务 器 的 带宽 被 均匀 划分 成 个 逻辑 频道 , 那么 每 部 电影 的 接 入 时 间 就 为 5= “< ( 注 
意 : 接 入 时 间 实 际 上 与 天 的 值 无 关 )。 换 句 话 说， 接 入 时 间 会 随 着 网 络 带宽 的 增加 而 线性 减少 。 


seit. [1] 2/3] 4] 5/6] 7] 8]1]2/3/4]5]6)7)8 

sa |2/1/2]3] 4[5]6]7]8/1]2]3] {5]6]7| 
| 

mas | 区 [2[3[4js[spzs[ 2] [415] 


频道 6 [jz|3|4|5js|7|s|: 


16-11 交错 广播 ， 此 例 中 有 8 部 电影 (M=8)，6 个 通道 (K=) 
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2. SFE 

Viswanathan 和 Imielinski[18] 提 出 了 人 金字塔 广 播 的 假设 。 在 这 个 假设 中 , 将 电影 文件 划分 成 长 
RERUN. PE, La =Q:L， 其 中 工 是 第 i 段 5; 的 大 小 (长 度 )，@ >1。5; 会 在 通道 
i 上 周期 性 地 广播 。 换 名 话说， 交错 广播 是 在 K 个 通道 上 以 一 个 电影 位 为 单位 播放 ， 而 在 金字 塔 
广播 中 是 以 电影 的 段 为 单位 ， 电 影 不 交错 。 每 个 通道 具有 相同 的 带宽 ， 所 以 对 于 长 度 较 大 的 段 ， 
传输 的 频率 就 会 比较 小 。 

因为 我 们 已 经 假设 可 用 的 带宽 要 比 电影 的 播放 速率 b 大 〈( 即 B>>1)， 所 以 根据 他 们 的 假设 ， 
金字 塔 广播 中 用 户 可 以 在 播放 一 个 较 小 的 段 5; 中 同时 接收 一 个 更 大 的 段 Sa 。 

为 了 保证 播放 能 够 连续 进行 (没有 停顿 )， 必 要 的 条 件 是 : 

playback _time(S;)> access _time(Sj+1) (16.1) 

其 中 ， playback _time(S;) = L; 。 假 设 分 配给 每 个 通道 的 带宽 是 B/K.b， 接 入 时 间 access_ 

Ln:M _a-L;-M 








i i 三 , `J% | : 
time(Si41) ae BIK 我 们 得 到 
oceM (16.2) 
BIK 
从 而 有 : 
ee (16.3) 
M-K 


S 的 大 小 决定 金字 塔 广播 的 接 入 时 间 。 默 认 情 况 下 , 我 们 设 定 w = 来 得 到 最 小 的 接 入 时 


间 。 随 着 带宽 B 的 增加 ， 接 入 时 间 以 指数 幅度 减 小 ， 因 为 a 是 线性 增加 的 。 

上 述 方案 的 一 个 缺点 是 客户 端 需要 大 量 的 存储 空间 ， 因 为 电影 的 最 后 两 个 段 的 总 和 大 约 占 整 
个 电影 大 小 的 75%~80%。 为 了 取代 按 几何 级 数 增长 的 序列 ， 我 们 使 用 摩天 大 楼 式 广播 [19]。 在 这 
种 方案 中 ， 段 长 的 序列 为 {1，2，2，5，5，12，12，25，2S，52，52，…… }， 以 此 减轻 对 大 组 
冲 区 的 要 求 。 

图 16-12 显示 的 是 一 个 含有 7 个 段 的 摩天 大 楼 式 广播 的 例子 。 如 图 所 示 ， 两 个 客户 端 分 别 在 
不 同 的 时 间 间 隔 (1，2) 和 (16，17) 提交 了 点 播 的 请 求 ， 它 们 有 不 同 的 传输 时 间 安 排 。 在 任何 
给 定时 刻 ， 客 户 端 最 多 能 接收 两 个 段 。 


0 4 8 12 16 20 24 28 32 36 40 44 48 
ee ae ee ee ee ee ee et ee ee ee ee 





频道 1 
频道 CHET TTITTIT MTT titi 
频道 3 OCENE 
频道 ‘已 E | Mm [| | | | 
gis T BE | mm |] | | y 
频道 6 a hl 
频道 7 COO T ë ë 
图 16-12 有 7 个 段 的 摩天 大 楼 式 广播 
Hu[20] 在 2001 年 描述 了 贪 焚 等 带宽 广播 (GEBB ) 算法 。 段 的 大 小 和 它们 相应 通道 的 带宽 是 
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以 获得 广播 特定 视频 所 需 的 最 小 总 服务 器 带宽 为 目的 而 确定 的 。 和 上 面 提 到 的 基于 金字 塔 原 理 的 
广播 方案 不 同 ，GEBB 采用 了 一 种 比较 “ 贪 禁 ” 的 方式 。 当 接 入 到 视频 广播 中 后 ,客户 端 立 刻 开 
始 尽 可 能 多 地 接收 服务 器 的 数据 ， 客 户 端 只 在 开始 播放 某 个 电影 段 的 时 候 才 停止 接收 该 段 的 内 
容 。 图 16-13 描述 了 GEBB 的 一 个 例子 ， 在 该 图 中 ， 所 有 的 通道 带宽 是 相等 的 。 


显示 平面 | Sı » | s | Si | Ss | 








-w 1 
1 
上 


下 载 平面 半 | m 


16-13 GEBB 示例 ， 阴 影 区 域 表 示 客 户 端 接收 和 播放 的 数据 
服务 器 带宽 优化 问题 可 以 被 形式 化 的 陈述 为 : 








ni B 
i=l 


subject to B; = S (7 K) 


w+ 》 Sj (16.4) 
j=l 





EP, w 为 等 待 时 间 ，B,; 是 第 i 个 通道 的 带宽 。 式 (16.4) 所 示 的 条 件 可 以 保证 段 8; PUER Si- 
播放 终止 的 时 候 能 够 被 接收 完成 。 这 样 ， 所 有 的 段 就 能 够 连续 播放 。 
上 述 的 非 线 性 优化 问题 可 以 用 拉 格 朗 日 乘 子 规则 来 解决 。 得 到 的 结果 是 ， 所 需 的 总 带宽 在 所 
有 的 通道 带宽 都 相等 的 情况 下 最 小 。 每 个 通道 的 广播 带宽 为 : 
Bi =B; =B*(1<i,j<K) (16.5) 


1 
s -En] Zj (16.6) 


(5a) (16.7) 
w 





A, 
段 的 大 小 成 几何 级 数 序列 分 布 。 (Say 称 为 视频 段 的 黄金 系数 。 


3， 谐 波 广 播 

Juhn 和 Tseng[21] 在 1997 年 提出 了 谐 波 广播 的 概念 ， 它 采用 了 一 种 新 的 广播 策略 。 在 该 策略 
中 ， 每 个 段 的 大 小 都 相同 ， 但 是 第 i 个 通道 的 带宽 是 B; =b/i, HP 是 电影 的 播放 速率 。 换 名 
话说 ， 通 道 带 宽 依 次 为 : bp，b/2，b/3，…*… b/K。 用 于 电影 传输 的 总 带宽 为 : 


& pb 
B= -=Hxk:b (16.8) 


i=1 l 


K 是 电影 文件 的 段 总 数 ，Hx = 可 是 K 的 谐 波 系数 。 


16-14 是 一 个 谐 波 广播 的 例子 。 在 提出 播放 请 求 后 ， 客 户 端 开始 下 载 并 从 通道 1 播放 电影 |468 
文件 的 第 一 段 51。 与 此 同时 ， 客 户 端 还 从 相应 的 通道 下 载 电 影 的 其 他 各 个 段 。 
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US. 为 例 ， 它 包括 两 个 部 分 8 ASy. AA B: 的 带宽 只 有 02, POE S 的 播放 过 程 中 ， 
只 有 S21 能 被 下 载 ( 预 下 载 )。 客户 端 可 以 在 5; 播放 的 时 间 内 下 载 8 的 另 一 部 分 $2 ， 播 放 结束 的 
时 候 ，5; 刚好 被 全 部 下 载 完 成 。 类 似 地 , 在 5, 播放 结束 的 时 刻 , 客户 端 已 经 提前 下 载 了 53 的 2/3， 
S3 剩 下 的 1/3 可 以 在 5; 播放 完成 的 时 刻 被 下 载 完毕 ， 因 为 5 占用 的 通道 3 的 带宽 是 b/3。 


©) dd 
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图 16-14 ” 谐 波 广播 

谐 波 广播 的 好 处 是 谐 波 系数 随 着 天 的 变 大 而 增长 缓慢 。 比 如 ， 在 K=30 KHR, He = 4 。 如 
果 电 影 长 度 为 120 分 钟 ， 每 段 的 长 度 为 4 分 钟 (120/30)。 这 样 ， 谐 波 广播 的 接 入 时 间 通 常 要 比 金 
字 塔 广播 的 接 入 时 间 短 ， 而 且 占 用 的 带宽 也 比较 小 在 本 例 中 为 49)。Juhn 和 Steng[21] 指 出 ， 客 
户 端 缓冲 区 的 容量 上 界 大 概 是 整个 电影 大 小 的 37%， 与 原始 的 金字 塔 广播 方案 相 比 ， 这 还 是 很 不 
错 的 。 

然而 , 上 述 的 谐 波 广播 方案 有 时 也 会 出 现 问 题 。 比如 , 如 果 客 户 端 从 图 16-14 所 示 的 第 二 个 5 

[469 | 开始 下 载 ， 当 它 完 成 的 时 候 ， 只 有 S: 的 后 一 半 Sy 被 预 下 载 。 客 户 端 便 不 能 够 从 通道 2 同时 播放 

ALP RS, AAT 2 的 带宽 只 有 播放 速率 的 一 半 。 

对 于 上 述 谐 波 广 播 的 问题 的 一 个 改进 是 服务 器 请 求 客户 端 延 迟 播放 5 一 段 时 间 。 这 种 延迟 的 
谐 波 播放 方案 的 缺点 是 它 的 接 入 时 间 会 成 倍增 加 。1997 年 之 后 ,又 出 现 了 多 种 原始 谐 波 广播 方案 
变 体 ， 如 谨慎 的 谐 波 广播 、 准 谐 波 广播 和 多 重 谐 波 广播 等 ， 它 们 都 解决 了 上 述 问题 ， 但 增加 了 方 
案 的 复杂 性 。 

4， 宝 塔 广播 

谐 波 广 播 方案 使 用 大 量 的 低 带 宽 媒 体 流 来 广播 视频 ， 而 金字 塔 广播 方案 使 用 少量 的 高 带宽 媒 
体 流 广播 视频 。 金 字 塔 广播 方案 需要 的 总 带宽 要 比 谐 波 广播 需要 的 带宽 高 。 但 是 ， 在 谐 波 广播 中 
管理 数量 巨大 的 独立 媒体 流 常 常 让 人 很 伤 脑筋 。 

Paris. Carter 和 Long[22，23] 提 出 了 宝塔 广播 和 它 的 变 体 。 他 们 提出 了 一 个 将 谐 波 广播 和 金 
字 塔 广播 方案 的 优点 结合 起 来 的 广播 策略 。 

图 16-15 解释 了 宝 诺 广播。 它 把 每 一 个 视频 文件 分 成 了 nn 个 固定 大 小 的 段 ， 每 一 个 时 间 段 的 
大 小 T=LWn。 服 务 器 以 视频 的 播放 速率 b 为 带宽 广播 每 个 电影 段 ， 但 是 各 段 的 周期 不 一 样 。 所 以 





— t 
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宝塔 广播 的 问题 在 于 选择 合适 的 从 段 到 通道 的 映射 关系 以 及 各 个 段 的 播放 时 间 。 

与 金字 塔 广播 和 谐 波 广播 相 比 ， 宝 塔 广播 对 于 任何 给 定 的 等 待 时 间 而 言 ， 并 不 都 是 其 带宽 利 
用 高 效 的 。 与 谐 波 广播 相 比 ， 它 需要 相对 较 少 的 段 来 满足 适当 的 等 待 时 间 要 求 ， 但 与 金字 塔 广播 
相 比 则 需要 更 多 的 段 。 

以 上 的 所 有 协议 是 基于 视频 文件 采用 固定 码 率 〈CBR) 来 编码 的 假设 建立 的 。 有 些 协议 可 以 
用 来 处 理 可 变 码 率 编码 的 视频 。 关 于 这 个 问题 的 更 多 知识 ， 读 者 可 以 参考 [20，24]。 























16-15 ”宝塔 广播 的 前 3 个 通道 - 段 映射 


5. ROH 

上 述 广 播 方案 在 希望 限制 用 户 交 互 时 是 很 高 效 的 ， 即 一 旦 发 出 请 求 ， 客 户 端 并 不 做 其 他 动作 
而 是 让 服务 器 选择 调度 策略 并 等 待 整个 电影 播放 完毕 。 

流 合并 对 于 动态 用 户 交 互 来 说 具有 更 好 的 适应 性 ， 动 态 用 户 交 互 是 通过 动态 合并 多 播 会 话 来 
达到 的 。 它 仍然 假设 客户 端 接收 带宽 要 比 视频 的 播放 速率 高 。 实 际 上 ， 通 常 假设 接收 带宽 至 少 是 
播放 速率 的 两 倍 以 上 ， 这 样 客户 端 可 以 同时 接收 两 个 视频 流 。 

一 旦 收 到 客户 端的 视频 点 播 请 求 ， 服 务 器 就 开始 向 客户 端 发 送 媒体 流 。 同 时 ， 客 户 端 还 能 访 
问 同一 视频 的 另 一 个 流 ， 这 个 媒体 流 是 之 前 由 其 他 的 客户 端 初始 化 的 。 在 某 一 个 时 刻 ， 第 一 个 媒 
体 流 就 失去 作用 了 ， 因 为 客户 端 已 经 从 第 二 条 媒体 流 中 获得 了 媒体 的 其 他 内 容 。 此 时 ， 第 一 个 流 
会 与 第 二 个 流 合并 (或 称 第 一 个 流 加 入 到 第 二 个 流 中 )。 

如 图 16-6 所 示 ,“ 第 一 个 流 ”B 在 二 2 开始 。 实 线 表示 媒体 播放 的 速率 ， 而 虚线 则 指出 了 接 
收 流 媒 体 的 带宽 ， 它 是 播放 速率 的 两 倍 。 客 户 端 从 媒体 流 A 接收 视频 ，A 在 六 0 时 被 初始 化 。 在 
m4, MAR B 加 入 到 A 中 。 

流 合 并 的 技术 可 以 分 级 方式 应 用 ， 即 分 级 多 播 流 合并 (Hierarchical Multicast Stream 
Merging，HMSM)。 如 图 16-16 所 示 ， 媒 体 流 C 在 =4 的 时 刻 开始 ， 在 二 6 的 时 刻 加 入 B, m 
B 加 入 A。 最 初 的 流 B 本 来 将 在 加 入 A 之 后 (t=4〉 失 去 作用 。 在 这 种 情况 下 ， 它 还 要 保持 到 
CHAA (=6)。 
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流 合并 的 一 个 变 体 是 “搭便 车 ”(piggybacking)， 在 该 算法 中 ， 流 的 播放 速率 可 以 做 动态 的 、 
[471] 轻微 的 调整 ， 从 而 使 流 合并 〈 搭 便 车 ) 成 为 可 能 。 


16.5.3 ”缓冲 区 管理 

连续 播放 的 媒体 通常 具有 期 望 的 播放 速率 ， 比 如 ， 对 于 NTSC 视频 为 30 帧 每 秒 ， 对 于 PAL 
视频 为 25 帧 每 秒 。 如 果 视 频 是 通过 网 络 传播 的 ， 那 么 在 不 使 用 播放 时 的 预 平滑 技术 的 条 件 下 ， 
所 需要 的 网 络 吞 吐 量 必须 比 视频 文件 的 峰值 码 率 要 高 ， 这 样 才能 保证 无 间断 地 播放 。 

正如 前 面 所 讨论 的 ， 绝 大 多 数 压缩 媒体 是 采用 可 变 码 率 方式 编码 的 。 通 常情 况 下 ， 文 件 的 活 
动 越 多 (视频 文件 中 的 动作 ， 音 频 文 件 中 的 语音 的 变化 等 )， 所 需要 的 码 率 越 高 。MPEG-1 的 平均 
码 率 为 1.5Mbps, MPEG-2 的 平均 码 率 大 于 等 于 4Mbps。 具 有 可 变 码 率 特征 的 媒体 可 能 在 某 一 点 
具有 很 高 的 码 率 , 而 在 另 一 点 具有 比较 低 的 码 率 。 媒 体 的 峰值 码 率 可 能 会 远 高 于 媒体 的 平均 码 率 ， 
因而 不 能 被 网 络 的 可 用 带宽 所 支持 。 

尽管 在 当今 并 不 常用 ， 固 定 码 率 编码 也 是 一 个 可 选 的 方案 ， 即 为 了 保证 固定 码 率 ， 可 能 会 出 
现 部 分 数据 的 失真 。 固 定 码 率 的 编码 的 效率 比 可 变 码 率 编码 效率 低 ， 为 了 得 到 播放 质量 相当 的 已 
编码 媒体 ， 固 定 码 率 编码 的 码 率 要 比 可 变 码 率 编码 的 码 率 〈 平 均码 率 ) 高 15%~30%。 

为 了 处 理 可 变 码 率 以 及 网 络 负载 的 连续 性 ， 我 们 通常 在 服务 器 端 和 客户 端 引 入 缓冲 区 [9]。 客 
户 端 〈 例 如 ， 在 客户 端的 机 顶 盒 》 要 引入 一 个 预 取 缓 冲 区 (prefetch buffer) 来 使 传输 率 更 加 平滑 
《减少 峰值 速率 )。 假 设 帧 :的 大 小 为 4 (六 ， 缓 冲 区 的 大 小 为 B， 当 前 接收 到 的 数据 字 节 大 小 为 
A rt) 在 1 帧 播放 时 )， 那 么 对 于 所 有 的 te 1,2,…,N ， 应 该 有 : 


t 1-l 
Pa) < AMK< ¥dW+B (16.9) 
i=l 


i=] 


4AQ< Ld 时 ， 网 络 并 没有 被 充分 使 用 ， 这 样 缓冲 区 处 于 下 溢 OR RE, TY 


i=l 
AD> Sd@+B 时， 网络 容量 被 超额 使 用 ， 缓 冲 区 溢出 。 在 这 两 种 情况 下 ， 我 们 都 不 能 平稳 、 
isl 


连续 地 播放 视频 文件 。 在 缓冲 区 饥饿 的 状态 下 ， 没 有 视频 数据 可 以 播放 ， 而 在 缓冲 区 溢出 的 状态 
下 ， 溢 出 的 部 分 会 被 丢弃 。 

图 16-17 说 明了 被 媒体 播放 (消耗 ) 速率 和 缓冲 数据 速率 所 限制 的 网 络 带宽 情况 。( 传 输 的 速 
率 为 曲线 的 斜率 。) 在 任意 一 个 时 刻 ， 为 了 保证 流畅 地 播放 ， 数 据 必须 保存 在 缓冲 区 中 ， 同 时 数 
据 传输 的 速率 应 该 大 于 数据 消耗 的 速率 。 如 果 网 络 带宽 可 以 达到 图 中 的 第 二 条 直线 所 示 的 水 平 ， 
那么 在 播放 进行 的 某 一 时 刻 , 被 消耗 的 数据 要 比 接收 到 的 数据 多 。 这 时 缓冲 区 就 会 处 于 饥饿 状态 ， 
播放 便 会 终止 。 同 时 ， 在 任何 一 个 时 间 点 上 ， 传 输 的 数据 总 量 不 能 超过 已 经 播放 的 数据 总 量 再 加 
上 缓冲 区 的 大 小 。 

如 果 网 络 带宽 可 以 达到 图 中 的 第 一 条 直线 所 示 的 水 平 ， 同 时 媒体 文件 尽 可 能 占用 所 有 的 带宽 
来 传送 ， 不 必 考虑 缓冲 区 的 影响 〈 像 通常 的 文件 下 载 一 样 )， 那 么 如 图 所 示 ， 在 快 到 达 文件 的 末 
尾 处 时 ， 接 收 的 数据 量 会 超过 缓冲 区 能 同时 存储 的 数据 量 。 缓 冲 区 便 会 溢出 ， 同 时 丢弃 多 余 的 数 
据 包 。 服 务 器 将 重新 传输 这 些 被 丢弃 的 数据 包 ， 或 者 选择 将 这 些 数据 包 直接 丢弃 不 再 重新 发 送 。 

尽管 在 溢出 的 时 候 ， 可 以 用 一 定 的 时 间 来 重新 传送 数据 ， 但 这 会 增加 占用 的 带宽 (可 能 引起 
将 来 的 缓冲 区 饥饿 )。 在 许多 种 情况 下 ， 比 如 广播 ， 通 常 没 有 类 似 的 反 向 信道 。 

维持 预 下 载 缓 冲 区 中 的 数据 既 不 洲 出 也 不 饥饿 的 技术 称 为 传输 率 控 制 方案 。 有 两 个 简单 的 
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策略 ， 一 是 充满 缓冲 区 后 以 平均 视频 码 率 来 进行 传输 ， 另 一 个 策略 是 在 不 超过 可 用 带宽 的 前 提 
下 保证 缓冲 区 处 于 充满 状态 。 如 果 视 频 震 要 的 带宽 高 于 现 有 带宽 ， 那 么 传输 率 控制 方案 假设 部 
分 数据 已 经 被 预 取 在 缓冲 区 中 ， 可 用 到 的 网 络 带 宽 可 以 保证 在 连续 播放 时 不 会 出 现 缓冲 区 的 包 
RRA» 


可 用 网 络 带宽 1 
数据 FH) | ， 








最 大 缓存 数据 
sol 

(a) +B) 
isl 
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图 16-17 当 媒 体 速率 超出 可 用 的 网 络 带 宽 时 ， 存 放 在 缓存 中 的 数据 能 帮助 顺利 地 播放 媒体 

传输 率 的 一 种 优化 设计 

介绍 了 服务 器 上 存储 的 媒体 的 数据 率 特性 后 [26]， 我 们 可 以 更 加 有 效 地 利用 预 取 缓冲 区 来 实 
现 数 据 的 网 络 传输 。 媒 体 服务 器 可 以 在 传输 进行 之 前 假定 一 个 传输 速率 ， 使 得 媒体 可 以 连续 地 播 
放 ， 同 时 使 保留 的 带宽 达到 最 小 。 大 部 分 传输 计划 可 以 使 得 尖峰 速率 达到 最 小 ， 但 还 存在 一 种 特 
殊 的 策略 可 以 使 速率 的 可 变性 ， 即 传输 率 的 变化 达到 最 小 。 这 样 的 传输 控制 计划 称 为 最 佳 超前 流 
畅 设 计 。 

使 速率 的 可 变性 达到 最 小 是 很 重要 的 ， 因 为 这 意味 着 该 最 佳 速 率 设计 使 得 视频 分 成 以 常数 速 
率 传输 的 小 段 的 集合 。 根 据 当 前 传输 率 而 不 是 尖峰 速率 确定 带宽 保留 策略 ， 可 以 使 运算 处 理 和 网 
络 资源 占用 尽 可 能 小 ， 同 时 保留 带宽 的 变化 会 尽 可 能 少 。 为 了 便于 讨论 ， 下 文中 提 到 的 均 为 视频 
媒体 ， 尽 管 该 技术 也 可 扩展 到 传统 意义 上 的 媒体 。 

视频 数据 率 可 以 以 帧 为 单位 分 析 ， 但 这 种 方法 不 是 最 佳 的 策略 ， 因 为 内 部 的 帧 不 能 被 它们 自 
己 解 码 ， 因 而 会 产生 一 个 解码 延迟 。 另 外 ， 该 算法 的 计算 成 本 也 比较 高 。 更 实际 的 做 法 是 根据 播 
BET 工 帧 时 消耗 的 数据 量 来 估算 视频 的 数据 速率 。 假 设 在 相同 的 场景 中 ， 电 影 的 数据 速率 是 常 
数 ， 那 么 若 只 考虑 每 个 场景 变换 后 的 第 一 帧 数据 量 ， 这 种 估算 可 能 比较 粗略 。 

像 从 前 一 样 ， 假 设 gb 是 帧 : 的 大 小 (te 1,2,…,N )，N 是 视频 文件 的 总 帧 数 。 类 似 的 ， 定 义 
a(D) 为 视频 服务 器 在 第 : 帧 播放 时 〈 为 了 简单 ， 我 们 称 作 在 时 间 上 内) 传输 的 数据 总 量 。 设 D(D) 为 
消耗 的 总 数据 量 ，4(D 为 在 时 间 上 收 到 的 总 数据 量 。 于 是 有 : 


D(t)= va (16.10) 
i=l 
A(t) = ¥ ati) (16.11) 
i=l 
设 缓冲 区 的 大 小 为 B。 在 任意 的 时 间 t， 在 没有 造成 缓冲 区 溢出 的 情况 下 ,接收 的 最 大 总 数据 


EA W(D)=D(1-1)+B8。 现 在 我 们 可 以 很 容易 地 描述 出 使 得 缓冲 区 既 不 饥饿 也 不 溢出 的 服务 器 传输 
速率 需要 满足 的 条 件 : 
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D(t)< A(t) < W(t) (16.12) 

为 了 在 视频 的 持续 时 间 内 避免 出 现 缓冲 区 的 饥饿 和 溢出 , 式 (16.12) 应 该 对 所 有 的 te12…N 
成 立 。 定 义 S 为 服务 器 传输 计划 ， 即 $ = a(D,a(2),…,a(CN) ， 如 果 8 对 式 (16.12) RE, WAS 
就 称 为 可 行 的 传输 计划 。 图 16-18 描述 了 包围 的 曲线 DOM W(D， 同 时 图 中 还 显示 ,一 个 常数 (或 
平均 ) 码 率 的 传输 计划 对 于 该 视频 不 是 可 行 的 ， 因 为 只 是 采用 平均 码 率 会 导致 缓冲 器 饥饿 。 


数据 CFA) 
4 





t (RS) 





图 16-18 ”一 个 特定 的 视频 的 优化 的 平滑 策略 和 缓冲 区 大 小 。 在 此 例 中 ， 不 适合 以 固定 的 数据 率 传输 


如 果 在 传输 之 前 已 经 知道 了 所 有 帧 的 大 小 dgD0， 那 么 服务 器 可 以 提前 生成 一 个 优化 的 传输 计 
划 ， 该 计划 可 行 并 且 使 传输 尖峰 速率 尽 可 能 小 [261]。 另 外 ， 该 计划 使 得 计划 中 的 变化 达到 最 小 ， 
474 | 使 传输 尽 可 能 地 平稳 。 
我 们 可 以 把 这 个 技术 想像 为 拖 搜 橡皮 圈 从 D(1) 到 DON), 它们 的 边界 由 DOM WOME. ME 
输 数据 曲线 的 斜率 为 数据 传输 率 。 自 然 地 ， 我 们 可 以 尽量 减 小 斜率 〈 即 峰值 传输 速率 )， 无 论 传 
输 数据 的 速率 什么 时 候 发 生 改 变 ， 在 传输 规划 中 它 应 尽早 采取 这 种 措施 。 
16-18 中 对 这 一 现象 进行 了 说 明 。 当 预 取 缓 冲 期 处 于 状态 a 时 ， 服 务 器 开始 传输 数据 。 为 
了 避免 缓冲 器 饥饿 ， 传 输 率 要 足够 高 ， 使 得 在 c 处 有 足够 的 数据 。 然 而 ， 在 该 速率 下 ， 缓 冲 器 会 
在 如 处 发 生 溢出 ， 这 样 就 必须 在 上 和 间 的 某 处 降低 传输 率 。 
在 这 个 范围 内 ， 最 近 的 一 个 点 (使 得 传输 率 可 变性 最 小 ) 为 点 c。 传 输 率 在 c 点 减 小 到 一 个 
比较 小 的 值 ， 并 保持 这 个 值 一 直到 点 4， 在 4 处 缓冲 器 为 空 。 在 此 之 后 ， 传 输 率 应 继续 降低 CE 
于 平均 码 率 )， 以 避免 缓冲 器 溢出 ， 直 到 e 点 。 达 到 e 点 后 ， 传 输 率 开始 上 升 。 
考虑 在 任意 时 间 段 [p，g], 令 BOD 表 示 在 时 间 ! 缓冲 器 中 的 数据 总 量 。 ee tt 
前 提 下 ， 最 大 常数 数据 速率 可 以 用 下 面 的 Ru 表示 : 
Rear = min O-O) +B) (16.13) 
PHIS t-p 
在 同一 时 间 段 内 不 引起 缓冲 区 饥饿 的 最 小 传输 速率 Ronin 为 : 
Ron = max POOP) +B) 
ptisi<g t-—p 
显然 ， 传 输 过 程 需要 满足 Res > Rmn ， 否 则 在 [p，g] 时 间 段 内 就 无 法 实现 以 常数 传输 率 传输 。 
该 算法 可 以 用 于 构造 一 个 最 佳 传输 计划 ， 该 计划 从 [p,q=p+1] 开 始 ， 每 次 增加 4 的 过 程 中 重新 计算 
Rmax 和 Rmin 的 值 。 如 果 Rmax 变 大 ， 则 在 [p,qmor] 间 建立 一 个 速率 为 Rar 的 播放 段 ， 其 中 qm 为 组 


(16.14) 
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冲 区 最 近 充 满 的 时 刻 《〈 在 巴 ，g] 间 达到 Rna 的 最 近 的 点 )。 

同样 ， 如 果 Ron 变 小 ， 那 么 就 在 [p,qmin] 间 建 立 一 个 速率 为 Rmn 的 播放 段 ， qmin 为 缓冲 区 最 
近 一 次 为 空 的 时 刻 。 

传输 率 计划 充分 考虑 了 网 络 允 许 的 最 大 拌 动 。 假 使 在 接收 数据 的 时 候 没有 延 迟 ， 那 么 在 t 时 
刻 ，4(0 字 节 的 数据 被 接收 ， 它 必须 不 超过 Wl)。 现 在 假设 网 络 处 于 最 不 理想 的 状态 ， 有 6 秒 的 
最 大 延迟 。 视 频 解 码 会 延迟 8 秒 ， 则 预 处 理 缓冲 器 中 的 内 容 便 不 能 被 释放 。 这 样 D(#) 曲 线 需 要 被 
修正 为 D(t-6) 曲 线 。 图 16-18 解释 了 上 面 的 观点 。 这 种 方法 能 在 给 定 最 大 延迟 抖动 的 情况 下 提供 
避免 缓冲 区 饥饿 以 及 溢出 的 方案 。 


16.6 ”进一步 探索 


读者 可 以 参考 Steinmetz、Nahrstedt[27]、Wu 和 Irwin[28]、Jeffay 和 Zhang[29] 来 了 解 多 媒体 
网 络 通信 方面 的 更 多 内 容 。Wang 等 [30] 提 供 了 关于 视频 处 理 和 通信 的 详细 讨论 。Orzessek 和 |475 
Sommer[15] 中 有 关于 ATM、MPEG-2 及 在 宽带 网 络 中 集成 数字 视频 等 方面 的 内 容 。 

在 网 站 上 的 本 章 的 Further Exploration 中 列 出 了 一 些 关 于 多 媒体 网 络 通信 的 优秀 资源 ， 诸 如 : 

。ITU-T 建议 

。 MBone 站 点 

。RIP、RTSP 和 SIP 的 网 页 

。ATM 的 介绍 和 白皮书 

。 DVB 的 介绍 和 白皮书 

此 外 ， 还 包括 IETF 中 的 REC 列表 : 

。 评价 可 靠 多 播 传输 协议 的 标准 

。 多 媒体 数据 的 实时 传输 协议 (RTP、RTSP、RSVP) 

。 VoIP (SIP. SDP 和 SAP) 的 协议 

e Diffserv 与 MPLS 


16.7 练习 


1. 讨论 至 少 两 种 在 基于 为 任何 多 媒体 数据 包 都 指定 QoS 类 别 的 包 交换 网 络 中 启用 QoS 路 由 的 方 
法 〈 它 可 以 应 用 于 任何 存储 -转发 网 络 )。 

2. 给 出 几 个 16.1.3 节 中 没有 提 到 过 的 用 于 特定 多 媒体 应 用 的 优先 级 传输 方法 。 

3. RTP 在 什么 时 候 使 用 ? RTSP 在 什么 时 候 使 用 ? 将 这 两 个 协议 合并 有 没有 好 处 ? 

4. 重新 考虑 说 明 RSVP 的 图 16-4。 在 16-4d 中 ， 接 收 者 R3 发 送 一 个 RESV 的 RSVP 消息 给 S1。 
假设 图 中 给 出 了 整个 网 络 的 状态 , 那么 这 个 路 径 是 为 使 未 来 网 络 的 吞吐 量 最 大 而 保留 的 吗 ? 如 
果 不 是 ,什么 是 优化 路 径 ? 在 不 修改 RSVP 协议 的 条 件 下 , 给 出 一 个 网 络 节 点 发 现 并 选择 这 样 
一 条 路 径 的 策略 。 

， 浏 览 网 页 来 了 解 当前 因特网 电话 的 技术 进展 。 

. 对 于 交错 广播 ， 如 果 所 有 天 〈 天 之 1) 个 逻辑 通道 得 到 的 带宽 都 一 样 ， 证 明 接 入 时 间 与 无 关 。 

， 在 图 16-17 中 指出 可 用 视频 传输 策略 的 特点 。 什 么 是 优化 传输 计划 ? 

， 考虑 提前 传输 使 媒体 流畅 的 技术 ， 根 据 算法 ， 如 何 决定 在 哪 一 点 来 改变 数据 的 传输 率 ? 什么 
是 传输 率 ? 476 

， 重新 考虑 提前 传输 使 媒体 流畅 的 技术 ， 可 以 不 使 用 每 个 视频 帧 而 只 考虑 压缩 视频 段 中 变化 很 
大 的 帧 。 你 将 如 何 修正 这 个 算法 〈 或 视频 信息 ) 来 支持 上 述 的 改进 ? 
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10， 当 服务 器 与 特定 客户 端 之 间 建 立 单独 的 通信 通道 时 ， 进 行 单 播 传输 。 


Ca) 假设 视频 是 VBR 编码 ， 同 时 允许 客户 端 发 送 反馈 ， 举 出 两 个 用 于 单 播 视频 传输 的 方法 。 


Cb) 哪个 方法 更 好 ， 为 什么 ? 


11. 多 播 传输 是 服务 器 将 单独 的 媒体 流传 送 给 所 有 的 监听 多 播 路 由 器 ， 路 由 器 也 用 这 种 方法 进行 


传输 ， 直 到 有 客户 端 收 到 媒体 流 为 止 。 
(a) 对 于 VBR 视频 流 ， 列 举 两 个 用 于 多 播 视 频传 输 的 方法 。 
Cb) 哪个 方法 更 好 ， 为 什么 ? 


提示 : 尽管 客户 端 可 能 为 反馈 保留 了 相应 的 通道 ， 但 如 果 所 有 的 客户 端 都 像 服务 器 发 送 


反馈 ， 可 能 导致 网 络 的 拥塞 。 
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第 17 章 无 线 网 络 


17.1 简介 

快速 发 展 的 计算 机 和 通信 技术 使 普 适 计算 成 为 了 可 能 。 从 早期 的 无 线 电话 到 20 世纪 90 年 代 
出 现 的 手机 ， 直 至 当今 的 个 人 数字 助理 〈Personal Digital Assistant, PDA). Pocket PC (口袋 PC) 
和 视频 电话 等 ， 无 线 通信 都 是 它们 的 核心 技术 。 无 线 通 信 技 术 启 用 了 个 人 通信 服务 (Personal 
Communication Service，PCS)、 个 人 通信 网 络 (Personal Communications Network, PCN) 和 个 人 
数字 蜂窝 (Personal Digital Cellular, PDC). 

从 地 理 上 看 ， 无 线 网 络 通常 被 划分 成 一 个 个 的 蜂窝 〈cell)。 蜂 帘 中 的 每 个 移动 电话 通过 接 入 
点 〈access point) 与 他 人 联系 ， 接 入 点 起 到 了 网 关 的 作用 。 接 入 点 之 间 通 常 采 用 有 线 、 无 线 或 者 
卫星 相连 ， 从 而 形成 核心 网 络 。 当 一 个 移动 电话 用 户 走 出 初始 接 入 点 的 覆盖 区 域 后 ， 需 要 进行 信 
号 的 移交 Chandoff) 来 维持 原来 的 通信 。 

在 1985 年 ，902~928MHz、2.400~2.4835GHz 和 5.725~5.850GHz 三 个 频段 分 别 被 FCC 指定 
用 于 工业 、 科 学 和 医疗 的 应 用 ， 因 此 被 称 为 ISM 频段 。 

从 传统 意义 上 讲 ， 蜂 窝 的 大 小 通常 是 以 公里 为 单位 衡量 的 。 然 而 ，PCS 的 引入 带 来 了 分 层 蜂 
窝 网 络 的 需求 ， 多 种 层次 的 蜂窝 定义 如 下 : 

。 微微 蜂窝 〈picocelb) ”每 个 微微 蜂窝 最 多 材 盖 100 米 ， 适 用 于 家 庭 和 办 公 室 中 的 无 线 应 用 

程序 和 设备 (如 PDA 等 )。 
° KER (microcell) MARRS Bie 1000 米 的 范围 ， 在 城市 和 局 部 区 域内 可 以 得 到 
应 用 ， 如 街 上 通过 无 线 接 入 的 公用 电话 。 

。 蜂 离 〈celD) ”每 个 蜂窝 的 覆盖 范围 约 为 10000 米 ， 适 用 于 国家 内 部 的 网 络 应 用 。 

。 宏 蜂窝 (macrocell) “范围 覆盖 全 球 ， 如 卫星 电话 。 

信和 号 的 痊 减 是 无 线 通 信 (尤其 是 移动 通信 ) 中 存在 的 普遍 现象 , 接收 到 的 信和 号 强度 有 时 会 ( 瞬 
ED 变 小 。 当 一 个 信号 通过 不 同 的 路 径 〈 比 如 通过 楼 房 、 高 山 或 者 其 他 物体 的 反射 ) 到 达 接收 器 
时 ， 就 会 发 生 多 路 衰减 现象 。 因 为 它们 在 不 同 的 时 间 和 相位 到 达 ， 信 号 的 多 态 会 互相 抵消 ， 这 样 
会 导致 信号 丢失 甚至 连接 中 断 。 尤其 在 使 用 更 高 的 数据 速率 进行 通信 时 , 这 种 问题 变 得 更 加 严重 。 
17.1.1 模拟 无 线 网 络 


早期 的 无 线 通 信 网 络 大 部 分 是 用 于 语音 通信 的 ， 如 电话 和 语音 邮件 。 第 一 代 〈1G) 蜂窝 电话 
使 用 模拟 技术 和 频 分 多 址 访问 (Frequency Division Multiple Access, FMA) 技术 。 在 这 种 技术 中 ， 
通信 的 每 个 用 户 使 用 一 个 独立 的 频率 通道 。 它 的 标准 是 北美 的 高 级 移动 电话 系统 (Advanced 
Mobile Phone System, AMPS), 欧洲 和 亚洲 的 全 访问 通信 系统 (Total Access Communication System, 
TACS) 以 及 北欧 移动 电话 系统 (Nordic Mobile Telephony, NMT)。 进 行 数字 数据 传输 的 用 户 需要 
调制 解 调 器 来 接 入 无 线 网 络 ， 常 用 的 数据 速率 是 9600bps。 

以 AMPS 为 例 ， 它 在 800~900MHz 频段 内 工作 ， 为 双 路 通信 的 每 一 个 方向 都 分 配 23MHz， 
移动 站 传输 (MS 传输 ) 使 用 824~849MHz 频段 ， 而 基站 传输 (BS 传输 ) 使 用 869~894MHz 频段 。 
每 个 25MHz 的 频段 都 分 成 两 个 12.5MHz 的 操作 频段 一 一 A 和 B, 每 个 频段 都 是 12.5MHz. FDMA 
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则 继续 将 每 个 12.5MHz 操作 频段 分 成 416 个 小 通道 , 每 个 通道 占用 30kHz 带宽 。 每 个 MS 传输 通 
道 的 频率 低 于 相应 的 BS 传输 通道 频率 45MHz。 

类 似 地 ，TACS 使 用 900MHz 频段 ， 它 最 多 支持 1320 个 全 双 工 通道 ， 每 个 通道 的 频率 宽度 为 
25kHz. 

图 17-1 给 出 了 一 个 可 能 的 用 于 FDMA 蜂窝 系统 的 几何 分 布 〈 为 清楚 起 见 ， 第 一 个 蜂窝 集群 
的 蜂窝 用 粗 线 标 出 )。 一 个 含有 7 个 六 边 形 蜂窝 的 蜂窝 集群 是 一 个 履 盖 蜂窝 区 域 。 只 要 给 这 个 集 
群 中 的 每 个 蜂窝 都 分 配 一 组 唯一 的 频率 通道 ， 它 们 之 间 就 不 会 产生 冲突 。 





图 17-1 一 个 可 能 的 FDMA 蜂窝 系统 的 几何 分 布 ， 其 集群 的 大 小 是 7 个 六 角形 的 蜂窝 480 


同样 的 频率 通道 集合 (如 图 17-1 中 的 ABH) 会 在 每 个 群集 中 按照 均衡 模式 被 重新 使 用 一 
次 ， 重 复 使 用 系数 K=7。 例 如 在 AMPS 系统 中 ， 每 个 蜂窝 可 以 使 用 的 通道 数量 〈 包 括 控制 通道 ) 
为 416/K=416/7=59。 

在 这 种 配置 中 ， 可 以 保证 两 个 不 同 集群 中 使 用 相同 频率 f, 的 用 户 在 地 理 位 置 上 至 少 相 隔 D, 
其 中 D 是 六 边 形 蜂窝 的 直径 。 在 真空 中 ， 电 磁 辐 射 在 距离 D 之 间 以 D” 了 的 速度 衰减 。 然而， 在 真 
实 的 物理 空间 中 ,这 种 衰减 速度 可 以 达到 DD” ~ DO, 这样 可 以 使 得 FDMA 方案 适用 于 模拟 无 线 
通信 ， 因 为 使 用 相同 频率 通道 的 用 户 之 间 的 冲突 可 以 忽略 。 


17.1.2 ”数字 无 线 网 络 


BOK 2G) 无 线 网 络 使 用 数字 技术 。 除 了 语音 外 ， 数 字数 据 在 文本 消息 、 音 频 流 、 电 子 出 
版 物 等 应 用 中 的 传输 量 也 不 断 增加 。 北 美的 数字 蜂窝 网 络 在 1993 年 采用 两 种 相互 竞争 的 技术 ; 
时 分 多 址 访问 〈Time Division Multiple Access, TDMA) 和 码 分 多 址 访问 〔〈Code Division Multiple 
Access, CDMA )。 在 亚洲 和 欧洲 ， 使 用 TDMA 的 全 球 移动 通信 系统 (GSM) 在 1992 年 被 引入 。 

下 面 ， 我 们 将 首先 介绍 TDMA 和 GSM， 然 后 介绍 扩 频 并 分 析 一 下 CDMA. 

17.1.3 TDMA 和 GSM 

顾名思义 ，TDMA 在 多 个 时 间 段 内 创建 多 个 通道 ， 同 时 让 这 些 通道 共享 相同 的 载波 频率 。 在 
实际 应 用 中 ，TDMA 通常 与 FPDMA 结合 使 用 ， 也 就 是 FDPMA 把 可 分 配 的 全 部 频谱 先 分 成 多 个 载 
波 频 率 通道 ， 再 由 在 时 间 的 维度 上 继续 划分 每 个 频率 通道 。 

GSM 是 由 欧洲 邮电 会 议 (European Conference of Postal and Telecommunications Administrations, 
CEPT) 建立 的 ， 它 的 目标 是 为 创建 一 个 能 够 处 理 数 百 万 计 的 移动 用 户 ， 同 时 提供 漫游 整个 欧洲 的 
服务 的 移动 通信 网 络 建立 一 个 标准 。 它 在 900MHz 频率 范围 工作 ， 因 此 也 叫做 GSM 900。 在 欧洲 
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也 支持 GSM 1800， 该 标准 是 在 最 初 的 GSM 标准 上 加 以 修改 以 使 它 工 作 在 1800MHz 频率 范围 内 
而 得 到 的 。 

在 北美 ，GSM 网 络 使 用 1.9GHz 的 频率 (GSM 1900)。 然 而 ，TDMA 技术 的 优势 是 TIA/EIA 
IS-54B 和 IS-136 标准 的 使 用 。 这 些 标准 有 时 也 称 做 Digital-AMPS 或 者 D-AMPS. IS-54B 在 1996 
年 被 新 的 IS-136 标准 所 取代 ，IS-136 标准 使 用 数码 控制 通道 (DCCH) 以 及 其 他 增强 的 用 户 服务 。 
IS-136 在 800MHz 和 1.9GHz (PCS 频率 范围 ) 两 个 频率 下 工作 ， 它 在 两 个 频率 下 提供 相同 的 数据 
服务 。GSM 与 IS-136 将 TDMA 与 FDMA 结合 来 使 用 被 分 配 的 频段 , 同时 使 用 纯 FDMA 模式 ( 模 
拟 ) 的 移动 基站 来 提供 向 前 兼容 性 。 

如 图 17-2 Bras, GSM 900 的 上 行 通道 〈 移 动 站 发 向 基站 ) 使 用 890~915MHz 频段 ， 而 下 行 

通道 〈 基 站 发 向 移动 站 ) 使 用 935~960MHz 频段 。 换 名 话说， 给 每 个 通道 分 配 25MHz. GSM 的 
频 分 继而 将 每 个 25MHz 划分 成 124 个 载波 频段 , 每 个 频段 为 200kHz。GSM 的 时 分 将 每 个 载波 频 
段 划分 为 TDMA 帧 ;26 个 TDMA 帧 组 成 一 个 120 毫秒 的 业务 信道 (Traffic Channel, TCH), i% 
通道 用 来 进行 语音 和 数据 的 载波 传播 。 





























下 行 线 . 
17-2 GSM 的 频 分 和 时 分 


915 . 960 
25 MHz 25 MHz 
上 行 线 


每 个 TDMA 帧 大 概 是 4.615 毫秒 〈 即 120/26 毫秒 )， 它 由 8 个 时 间 段 组 成 ， 每 个 小 时 间 段 
的 长 度 为 4.615/8~0.577 毫秒 。 给 每 个 移动 站 分 配 一 个 专用 的 时 间 段 ， 在 该 时 间 段 中 ， 移 动 站 
可 以 接收 和 发 送 数据 。 数 据 的 发 送 和 接收 并 不 会 同时 在 一 个 时 间 段 中 发 生 ， 它 们 被 3 个 时 间 段 
分 隔 。 

GSM 提供 多 种 数据 服务 。GSM 用 户 可 以 与 POTS、ISDN、 包 交换 或 者 电路 交换 公共 数据 网 
络 中 的 用 户 进行 数据 交换 。GSM 同时 支持 短信 息 服务 (SMS )。 在 SMS 中 ， 每 个 文本 信息 最 多 有 
160 个 字符 ， 可 以 通过 移动 电话 进行 传播 。GSM 的 一 个 特点 是 具有 用 户 识 别 模块 (SIM)，SIM 是 
一 个 载 有 用 户 电话 号 码 以 及 访问 各 种 GSM 服务 的 智能 卡 。 

通常 情况 下 ，GSM 网 络 是 电路 交换 的 ， 它 的 极限 数据 速率 是 9.6kbps。1999 年 发 展 起 来 的 通 
用 分 组 无 线 业 务 (General Packet Radio Service, GPRS) 支持 数据 在 无 线 连接 上 进行 包 交换 ， 所 
以 用 户 是 处 于 “一 直 连 接 ” 状 态 的 。 它 被 称 为 一 种 2.5G( 介 于 第 二 代 和 第 三 代 之 间 ) 服务 。GPRS 
理论 上 的 最 大 速度 是 171.2kbps， 这 是 在 8 个 TDMA 时 间 段 都 被 一 个 用 户 使 用 的 情况 下 实现 的 。 
在 实际 的 实现 中 ， 单 用 户 的 数据 流量 在 2001 年 达到 56kbps。 显 然 ， 当 网 络 被 多 个 用 户 共享 的 时 

候 ， 每 个 GPRS 用 户 的 最 大 的 数据 速率 便 会 下 降 。 
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17.1.4 扩 频 和 CDMA 


扩 频 是 一 种 使 信号 的 带宽 在 传输 之 前 加 以 扩展 的 技术 。 从 表面 上 看 ， 扩 展 的 信号 可 能 会 与 背 
景 噪声 融合 到 一 起 而 不 易 被 分 辨 ,所 以 它 在 安全 性 和 健壮 性 方面 具有 明显 的 优势 ， 可 以 避免 故意 
的 信号 干扰 〈 人 为 干扰 )。 

扩 频 同时 既 用 于 模拟 信号 也 适用 于 数字 信号 ， 因 为 这 两 种 信和 号 都 能 被 调制 并 且 “ 扩 展 ”。 比 
如 ， 早 期 的 无 绳 电话 和 蜂 窜 电 话 使 用 的 就 是 模拟 信号 。 然 而 ， 使 这 项 技术 在 多 种 无 线 数据 网 络 中 
更 受 欢迎 的 应 用 是 数字 信号 应 用 ， 尤 其 是 CDMA。 

接 下 来 我 们 将 简要 介绍 两 种 实现 扩 频 的 技术 : 跳 频 和 直 频 。 

1. SEI 

跳 频 (Frequency Hopping, FH) 是 扩 频 的 早期 方法 。 模 拟 信号 跳 频 的 方法 是 由 女 演 员 Hedy 
Lamarr{3] 在 1940 年 二 战 中 发 明 的 。 图 17-3 显示 了 跳 频 的 发 送 器 和 接收 器 的 主要 组 件 。 


三 一 一 一 一 一 一 一 一 一 一 一 一 一 一 


t 1 1 FH 1 
| 1 1 解 扩 器 数据 ! 
数据 m ~ 
l | 器 
调制 器 ! x) 解 调 
| 1 ot | 
| 伪 随 机 频率 生成 器 | | 伪 随 机 频率 生成 器 | 
[|_ Ln 1 1 
发 送 器 接收 器 


图 17-3 ” 跳 频 扩 频 的 发 送 器 和 接收 器 

开始 ， 调 制 数据 (模拟 或 者 数字 ) 以 产生 一 些 以 基 频 率 f 为 中 心 的 基带 信和 号。 因为 当前 无 线 
应 用 的 数据 速率 相对 较 低 ， 其 基带 B, 的 带宽 也 比较 小 。 例 如 ， 如 果 数 据 速率 是 9.6kbps, 那么 ( 根 
据 调 制 方案 ) 带宽 B, 不 应 该 超过 2x9.6 =19.2kHz 。 伪 随机 频率 生成 器 从 以 兆赫 兹 “MHz〉 为 单 
位 的 宽带 ”中 生成 一 个 随机 的 频率 f. 。 在 跳 频 (FH》 的 扩张 器 上 ， f, 被 基带 信号 调制 来 产生 扩 
频 信 号 ， 它 与 基带 信号 的 形状 相同 ， 但 是 具有 新 的 中 心 频率 ; 

Se= fet fo (17.1) 
因为 f 在 宽带 中 随机 变化 ， 所 以 最 终 信 号 的 f. 会 在 宽带 中 产生 相应 “ 跳 变 ”。 

在 接收 端 , 处 理 的 过 程 刚 好 相反 。 只 要 接收 端 使 用 相同 的 伪 随 机 频率 发 生 器 产生 相同 的 频率 ， 
就 能 保证 信号 被 准确 地 接收 和 解 调 。 

a AEAN, 尽管 FH 方法 使 用 宽带 扩 频 方法 ， 在 传输 过 程 中 的 任意 一 个 给 定 的 时 刻 ，FH 

只 占有 频段 应 的 一 小 部 分 。 

FH 六 频 信 总 的 人 内 在 托 和 从 天 人为 二 方面 具有 更 地 的 安全 让 和 人 LE E 因为 在 任何 一 个 
罕 的 频段 内 ， 只 有 FH 信号 的 一 个 极其 微小 的 部 分 可 能 被 接收 或 者 受到 干扰 。 

如 果 跳 变 的 速率 低 于 数据 的 速率 ， 则 称 为 慢 跳 变 ， 它 比较 好 实现 。 慢 跳 变 曾 在 GSM 中 使 用 ， 
因为 每 个 具有 频率 跳 变 的 TDMA 帧 可 能 在 不 同 的 载波 频率 下 传输 , 所 以 慢 跳 变 有 助 于 减少 多 路 径 
的 信号 衰减 。 在 快 跳 变 中 ， 跳 变 的 速率 要 比 数据 速率 快 得 多 ， 所 以 它 在 抵御 窜 带 干扰 方面 要 更 安 
全 、 更 有 效 。 

2. BR 

在 多 接 入 环境 中 使 用 FH 扩 频 方案 时 ， 有 时 会 出 现 多 个 信号 跳 变 到 相同 的 频率 的 情况 ， 这 时 就 


O 频率 万 的 选择 是 由 一 个 随机 数 发 生 器 控制 的 。 因 为 算法 是 确定 的 ， 所 以 它 并 不 是 真正 随机 的 ， 而 是 伪 随 机 的 。 
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会 出 现 干扰 。 尽 管 某 些 形式 的 TDMA 可 以 减轻 这 个 问题 ， 但 它 同时 对 用 户 的 最 大 数量 进行 了 限制 。 

无 线 技术 的 一 个 重大 突破 是 码 分 多 路 访问 (CDMA) 技术 的 开发 和 使 用 。CDMA 的 基础 是 直 
# (Direct Sequence , DS) 扩 频 。 与 FDMA 或 者 跳 频 中 每 个 用 户 在 任意 时 刻 占用 专门 频率 不 同 ， 
多 CDMA 用 户 在 数据 的 传输 过 程 中 可 以 使 用 共享 宽带 通道 中 相同 的 《甚至 全 部 的 ) 带宽 ! 一 个 
常用 的 频段 也 可 以 分 配给 全 部 蜂窝 中 的 多 个 用 户 ， 换 句 话说， 其 重 使 用 系数 Kl1。 只 要 能 做 好 用 
户 间 的 冲突 管理 ， 就 可 以 大 大 提高 用 户 的 最 大 数量 。 

如 图 17-4 所 示 ， 对 于 每 个 CDMA 发 送 器 ， 直 频 (DS) 扩展 器 会 接收 一 个 唯一 的 伪 噪 声 序列 。 
伪 噪声 序列 (也 称 为 基 片 码 或 扩展 码 ) 由 一 个 被 称 为 “ 基 片 ”的 窗 脉 冲 流 组 成 ， 基 片 的 位 宽度 为 
T,。 它 的 带宽 B, 约 为 1/T, . ANT, 比较 小 ， 所 以 B, 比 窄带 信号 的 带宽 B 大 很 多 。 





17-4 ” 直 频 扩 频 


扩展 码 与 输入 的 数据 相 乘 。 当 数据 位 为 1! 时 ,输出 的 DS 码 与 扩展 码 一 致 ， 当 数据 位 为 -1 时 ， 
输出 的 DS 码 与 扩展 码 相反 。 结 果 ， 原 始 窗 带 数据 的 频谱 便 被 扩展 ，DS 信号 的 带宽 为 
Bos = B, (17.2) 


解 扩 展 的 过 程 也 涉及 将 DS 码 与 扩展 序列 相 乘 。 只 要 使 用 的 序列 与 扩展 器 中 的 序列 相同 ， 结 果 
信和 号 就 会 与 原始 数据 相同 。 图 17-5 显示 了 DS 扩展 频谱 的 发 送 器 和 接收 器 的 实现 。 一 个 与 图 17-4 
中 有 微小 差别 的 实现 细节 是 DS 的 扩展 器 和 解 扩展 器 都 是 模拟 设备 。 在 传送 到 DS 扩展 器 之 前 ， 
数据 与 扩展 序列 首先 要 被 调制 成 模拟 信号。 
DS 扩 频 信号 


ps so Ds ) 
yee A, 4 ara 数据 
1 解 调 器 
i ae | 
1 1 
1 


宽带 伪 随 机 频率 载波 ， | 宽带 伪 随 机 频率 载波 





17-5 ” 直 频 扩 频 中 的 发 送 器 和 接收 器 


实现 CDMA 多 接 入 的 两 种 方式 是 ， 正 交 码 和 非 正 交 码 。 在 蜂窝 中 ， 动 态 地 给 每 个 移动 站 分 
配 一 个 唯一 的 扩展 码 ， 基 站 使 用 同样 的 扩展 码 来 区 分 和 解 扩展 每 个 信号 。 

对 于 正 交 的 CDMA， 蜂 窝 中 的 扩展 码 是 两 两 正 交 的 [4]。 通 常情 况 下 使 用 Walsh-Hadamard 编 
码 ， 因 为 它们 具有 一 种 称 为 正 交 可 变 扩 展 因子 〈Orthogonal Variable Spreading Factor, OVSF) HH 
要 特性 。 它 规定 不 同 长 度 〈 即 不 同 扩 展 系 数 ) 的 OVSF 码 之 间 仍 然 是 正 交 的 。 正 交 性 是 我 们 需要 
的 ， 因 为 只 要 数据 被 正 交 码 所 扩展 ， 它 便 能 在 接收 端 被 完好 地 分 离 出 来 。 

然而 ， 这 种 特性 也 带 来 了 一 些 问题 ， 当 序列 不 同步 时 ，Walsh-Hadamard 编码 可 能 会 出 现 多 个 
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自 相关 的 尖峰 ， 所 以 为 了 让 接收 端 知道 DS 信和 号 的 起 始 位 置 ， 还 需要 作 一 些 额外 的 同步 。 通 常情 
况 下 ， 在 基站 中 使 用 全 球 定位 系统 (Global Positioning System, GPS) 可 以 达到 同步 的 目的 。 这 种 
特性 的 另 一 个 缺点 是 , 正 交 码 都 集中 在 一 个 很 小 数量 的 载波 频率 中 , 这 样 会 导致 频谱 的 利用 率 低 。 

非 正 交 码 是 伪 随 机 噪声 (PN) PF. PN 序列 在 0.5 左右 的 平均 位 值 ， 同 时 还 用 一 个 自 相关 
尖峰 来 表示 序列 的 开始 。 这 样 ，PN 序列 为 自 同 步 的 ， 它 不 需要 额外 的 同步 工作 。 常 用 的 一 个 特 
殊 PN 序列 是 Gold #5). Gold 序列 有 3 个 交叉 相关 的 尖峰 。 

DS 扩展 频谱 使 用 了 宽带 中 的 全 部 带宽 ， 因 此 ， 它 在 抗 干扰 方面 具有 更 好 的 安全 性 和 健壮 性 。 
然而 ， 在 多 接 入 的 情况 下 ， 因 为 有 多 路 径 衰减、 外 部 蜂窝 干扰 等 原因 ， 信 号 仍然 会 彼此 干扰 。 下 
面 ， 我 们 对 DS 扩展 频谱 一 -CDMA 的 生存 能 力 进行 简要 分 析 。 


17.1.5 CDMA 分 析 


当 FDMA 或 TDMA 用 于 多 接 入 系统 中 时 ， 带 宽 或 者 时 间 就 会 按照 最 坏 的 情况 〈 即 所 有 用 户 
同时 并 一 直接 入 系统 ) 来 进行 分 割 ， 而 这 种 情况 在 语音 通信 中 几乎 不 可 能 出 现 。CDMA 允许 同一 
通道 内 的 用 户 共享 整个 通道 带宽 。 对 于 每 个 用 户 来 说 ,“ 实 际 上 的 噪声 ”是 其 他 用 户 的 信号 的 从 
加 和 ， 所 以 CDMA 是 基于 所 谓 的 “平均 情况 ”或 “平均 干扰 ”的 。 在 接收 端 ，DS 输入 通过 与 特 
定 用 户 指派 的 扩展 码 进 行 相关 运算 来 恢复 成 原始 信号 。 因 此 ， 只 要 能 维持 足够 的 信 品 比 ，CDMA 
的 接收 质量 便 有 了 保证 ， 就 能 达到 全 频 复 用 。 

我 们 假设 接收 器 的 热 噪声 为 Nz ， 每 个 用 户 接收 信号 的 能 量 为 A 。 在 基站 上 接收 的 源 信 号 之 
间 的 干扰 为 : 


M-1 
N=Nr+ BR 
i=l 
其 中 M 为 蜂窝 中 最 大 的 用 户 数量 。 
如 果 我 们 假设 热 噪 声 Nr 可 以 忽略 ， 同 时 每 个 用 户 接收 信号 的 能 量 只 均 相 同 ， 那 么 有 : 
N=(M-DP (17.3) 
每 一 位 接收 到 的 信号 能 量 Es 是 B 与 数据 速率 R (bps) 的 比值 。 
E,=P/R (17.4) 
干扰 N, A: 
N, =N/W=(M -DR /W (17.5) 


其 中 W (Hz) 是 CDMA 宽带 信号 载波 的 带宽 。 
于 是 我 们 得 到 信 品 比 (SNR) X: 





BIN eo EW I (17.6) 
整理 式 〈17.6)， 我 们 可 以 得 到 ; 
WIR 
Es /No 
或 近似 表示 为 : 
WIR 





(17.7) 
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A (17.7) 是 一 个 很 重要 的 结果 。 它 说 明 CDMA 系统 的 最 大 容量 〈 即 每 个 蜂窝 内 用 户 的 最 大 
数量 ) 由 两 个 系数 决定 ; W/R 和 E/N 。 

W/R 是 CDMA 带宽 W 与 用 户 数 据 速率 RR 的 比值 , 它 称 为 带宽 扩展 系数 或 者 处 理 增益 。 它 等 
于 扩展 序列 中 的 基 片 的 数量 。 它 通常 在 10? ~107 之 间 。 

Es /Ns 是 位 级 的 SNR。 根 据 QoS (错误 速率 需求 ) 和 实现 方法 (错误 校正 方案 、 多 路 径 衰 减 
的 抵制 等 )， 一 个 数字 解 调 器 可 以 在 位 级 SNR 为 34B~9dB 的 范围 内 正常 工作 。 

作为 一 个 例子 ， 我 们 假设 位 级 信 噪 比 为 64B (10log E,/N, =6dB )， 于 是 有 E,/Np=4. 在 
IS-95A 标准 中 ，W=1.25MHz，R=9.6kbps。 根 据 式 〈17.7) 可 以 得 到 : 

_ WIR 1250/9.6 _ 


CDMA 系统 的 最 大 容量 为 32， 这 与 AMPS 系统 中 的 容量 大 致 相同 。 当 复 用 系数 .K=7， 带 宽 
为 1.25MHz 时 ，AMPS 允许 的 最 大 通道 数量 为 ，1 250/ (30X7) =6。 然 而 ， 上 面 的 CDMA 分 析 
假设 相 邻 的 蜂窝 间 没 有 信号 干扰 。 如 果 按 照 这 个 假设 ，AMPS 的 复 用 系数 K=1， 最 大 的 通道 数量 
应 为 1 250/30~42。 那 么 当 考 虑 蜂窝 之 间 的 干扰 时 ，CDMA 的 容量 应 该 怎么 变化 呢 ? 
研究 表明 [5]， 相 邻 蜂 窝 之 间 所 有 用 户 的 干扰 仅仅 为 同一 蜂 窜 内 用 户 间 干扰 的 60%。 因 此 ， 式 
(17.7) 可 以 引入 系数 1.6〈 即 100%+60% )， 从 而 改写 为 反映 相 邻 蜂窝 间 干 扰 的 表达 式 ; 
W/R 


M=— (17.8) 
1.6: Ep /No 


上 述 系 数 1.6 称 为 有 效 复 用 系数 ， 因 为 它 在 CDMA 中 的 作用 与 FDMA 系统 中 的 复 用 系数 天 
作用 相同 。 很 明显 ， 因 为 CDMA 占用 所 有 的 带宽 ， 同 时 复 用 系数 也 比 FDMA 小 得 多 (1.6<<7), 
487| 所 以 CDMA 的 容量 要 比 FDMA 的 容量 大 。 
根据 上 面 的 例子 ， 我 们 得 到 ; 
1250/9.6 
~ 16x4 


~22 


其 容量 是 AMPS 的 容量 的 22/6 倍 。 
在 对 CDMA 分 析 进 行 总 结 前 ， 必 须要 指出 的 是 ， 我 们 已 经 做 了 一 些 简 化 工作 。 其 中 某 些 简 化 
可 以 增强 CDMA 的 性 能 ， 而 有 些 简化 会 减弱 CDMA 的 性 能 。Viterbi[5] 提 出 了 一 个 对 CDMA 进 行 完 
全 分 析 的 原则 。 
。 我们 假设 每 个 用 户 接收 的 能 量 PB 是 相同 的 ， 否 则 当 “ 近 的 用 户 ” 的 信号 比较 强 而 “ 远 的 用 
户 ” 的 信和 号 比较 弱 的 时 候 ， 就 会 出 现 “远近 问题 ” 整个 系统 便 会 崩溃 。 解 决 这 个 问题 需要 
在 传输 端 引入 一 个 复杂 的 能 量 控制 系统 。 现 代 CDMA 能 量 控制 系统 每 秒 1500 次 刷新 能 量 
级 以 保证 接收 的 PB 都 能 大 体 相同 。 l 
。 出 于 严格 的 能 量 控制 需要 ，CDMA 网 络 必须 要 实现 软 移 交 。 也 就 是 说 ， 当 移动 用 户 穿 过 蜂 
窝 的 边界 时 ， 因 为 它 处 于 两 个 以 上 基站 的 范围 内 ， 它 会 立即 连接 两 个 以 上 的 通道 ， 每 个 通 
道 都 对 应 于 不 同 的 基站 。 在 保证 发 出 的 信号 至 少 能 被 一 个 基站 正确 接收 的 前 提 下 ， 移 动用 
户 选择 尽 可 能 减少 信号 的 总 能 量 。 这 种 办 法 可 以 使 外 蜂窝 的 移动 干扰 降低 到 最 小 。 
。 为 了 减少 互 斥 干扰 ， 并 没有 采用 全 方向 的 天 线 ， 而 是 采用 具有 方向 的 天 线 ， 把 全 方向 分 成 
若干 个 扇 区 。 在 一 个 三 通 扇 区 蜂窝 中 ，AMPS 的 容量 减 为 1 250/ (30x7x3) ~2。 值 得 注意 
的 是 ，CDMA 的 容量 并 不 受 上 述 扇 区 划分 的 影响 。 因 此 ， 在 划分 为 扇 区 的 蜂窝 中 ，CDMA 
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的 容量 就 会 更 加 超过 AMPS 的 容量 。 在 上 个 例子 中 ， 超 过 的 比率 为 22/2~11。 

。 我 们 已 假设 每 个 用 户 始终 需要 采用 最 大 的 数据 速率 ， 这 在 实际 的 应 用 中 是 不 会 出 现 的 。 比 
如 ， 语 音 应 用 只 使 用 系统 35%~40% 的 容量 。 此 外 ， 高 效 语音 编码 还 可 以 将 网 络 的 容量 至 少 
提高 2 倍 。 


17.1.6 3G 数字 无 线 网 络 


第 三 代 BG) 无 线 服 务 在 多 媒体 服务 方面 ， 如 因特网 上 的 (低速 率 ) 视频 ， 起 到 了 重要 的 作 
用 。3G 的 应 用 包括 无 线 网 络 浏览 、 视 频 邮 件 、 连 续 媒 体 点 播 、 移 动 多 媒体 、 移 动 电子 商务 以 及 
远程 医疗 服务 等 。 与 现在 的 大 体 上 用 于 室内 和 专用 网 络 的 无 线 局 域 网 (WAN) 不 同 ，3G 主要 
用 于 公共 网 络 。3G 无 线 网 络 主要 使 用 宽带 CDMA (Wideband CDMA, WCDMA)， 而 大 部 分 2G 
无 线 连接 使 用 CDMA (如 北美 使 用 的 1S-95A) 和 TDMA (其 中 最 常用 的 是 GSM 和 IS-136). 488 

3G 的 标准 化 过 程 始 于 1998 年 ， 国 际 电信 联盟 在 召开 的 国际 移动 通信 论坛 (IMT-2000) 中 提 
出 了 无 线 电 传输 技术 〈Radio Transmission Technology, RIT) 的 提案 。 自 那 以 后 ， 这 个 项 目 便 被 称 
为 3G 或 者 通用 移动 电信 系统 (Universal Mobile Telecommunications System, UMTS). 各国 的 标准 
化 组 织 随 后 采用 了 该 建议 ， 并 加 入 了 它们 自己 的 改进 及 评价 方法 提交 给 ITU (ITU-R， 国 际 电信 
联盟 的 无 线 电 技术 部 门 )。 

值得 注意 的 是 ， 在 相关 的 规范 由 其 成 员 (包含 跨国 公司 ) 的 各 国标 准 化 组 织 开 发 的 时 候 ， 这 
些 团体 仍然 倾向 于 使 用 一 种 类 似 的 WCDMA 技术 ,为 了 实现 全 球 标 准 化 及 更 有 效 地 讨论 相关 的 问 
Ril, 第 三 代 伙 伴 项 目 (Third Generation Partnership Project, 3GPP) 于 1998 FERRE. 成立 3GPP 
是 为 了 指定 WCDMA 技术 的 全 球 标准 ， 该 标准 称 为 通用 地 面 无 线 电 接 入 (Universal Terrestrial 
Radio Access, UTRA) 标准 。 参 与 创建 3GPP 论坛 的 标准 化 团体 有 日 本 的 ARB, KARI ETSI. 
韩国 的 TTA、 日 本 的 TTC 及 北美 的 T1， 中 国 的 CWTS 在 1999 年 也 加 入 了 该 组 织 。 

3GPP 论坛 的 研究 中 心 关注 WCDMA 的 空中 接口 , 其 目标 是 推进 发 展 GSM 技术 , 同时 用 来 
与 GSM MAP 的 核心 网 络 进行 交互 。 同 时 ， 得 到 工业 界 支持 的 通信 工业 协会 CTIA) 也 在 为 ITU 开 
发 cdma2000 空中 接口 ，cdma2000 是 IS-95 标准 的 发 展 ， 它 主要 用 于 ANSI-41 (或 IS-41) 的 核心 
网 络 。 : 
类 似 的 工作 也 在 亚洲 进行 ， 模 仿 3GPP 的 例子 ， 标 准 化 组 织 决定 成 立 第 二 个 论坛 一 一 第 三 代 
伙伴 项 目 2 (3GPP2)。 加 入 该 论坛 的 标准 化 团体 有 日 本 的 ARB, HARI CWTS、 北 美的 TIA、 
韩国 的 TTA 和 日 本 的 TTC. 

尽管 3GPP 和 3GPP2 论坛 在 WCDMA 空中 接口 的 提案 方面 具有 相似 性 ， 它们 仍然 在 标准 上 
存在 分 歧 。 然 而 ， 它 们 都 对 创建 全 球 标准 感 兴趣 ， 它 们 都 监控 彼此 的 进程 同时 支持 运营 商 抄 调 组 
织 的 建议 。 这 两 个 论坛 达成 了 称 为 全 球 第 三 代 移 动 通信 系统 (GIG) 的 一 致 标准 ， 该 标准 有 三 种 
模式 ; 直接 扩展 (Direct Spread, DS)、 多 载波 (Multi-Carrier MC) 和 时 分 双 工 (Time Division Duplex, 
TDD), 其 中 DS 和 TDD 模 式 被 3GPP 指 定 用 于 WCDMA 中 , 而 MC 模 式 被 3GPP 指 定 用 于 cdma2000 
中 。 所 有 的 空中 接口 〈 所 有 模式 ) 可 以 在 两 种 核心 网 络 中 使 用 。 在 1999 FEX, ITU-R RAT 
IMT-2000 规范 ， 其 大 部 分 内 容 遵循 协调 后 的 WCDMA 标准 。 . 

3G 无 线 多 媒体 服务 要 依靠 手机 技术 的 快速 发 展 。 新 一 代 手 机 应 该 支持 视频 , 具有 更 好 的 软件 
和 用 户 接 口 ， 同 时 电池 寿命 应 该 更 长 。 

从 支持 电路 交换 通道 上 数字 通信 的 2G 无 线 网 络 到 同时 支持 电路 交换 和 包 交 换 通道 上 高 速率 
数字 通信 的 3G 网 络 的 移植 〈 或 进化 ) 的 路 径 已 经 被 指定 。 进 化 的 路 径 中 有 一 个 简单 且 实 现成 本 
比较 低 《〈 网 络 内 部 结构 的 改变 较 小 ) 的 中 介 步 又， 该 步骤 称 为 2.5G (2.5 代 )， 它 具有 增强 数据 速 
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率 和 数据 包 服 务 (也 就 是 说 ,在 2G 的 网 络 中 增加 了 包 交 换 )。 表 17-1 概括 了 使 用 IS-41 核心 网 络 
(在 北美 ) 和 GSM MAP 核心 网 络 〈 在 欧洲 等 地 区 ) 的 2G、2.5G 和 3G 标准 (包括 已 经 开发 的 和 


即将 开发 的 )。 


表 17-1 2G 到 3G 无 线 网 络 的 进化 


TI 
sm 












TT 





EDGE (TDMA) 384 kbps 
WCDMA 2 


1. IS-95 的 演化 

IS-95A 和 1895-B 被 认为 是 cdmaoOne， 它 们 基于 IS-41 BOM, FEE CDMA 空中 接 
口 。 同 样 的 ， 所 有 的 开发 都 遵循 着 把 现 有 的 CDMA 框架 扩展 到 3G (宽带 CDMA) 使 其 具有 向 前 
的 兼容 性 的 原则 。 这 里 涉及 性 价 比 的 问题 ， 所 以 它 主 要 得 到 了 工业 界 的 支持 并 被 其 迅速 的 采用 。 
IS-95A 是 一 种 2G 技术 ， 它 只 支持 电路 交换 ， 数 据 传 输 的 最 大 速率 为 14.4kbps; 它 的 一 个 扩展 是 
IS-95B 〈2.5G)， 它 支持 包 交 换 ， 同 时 能 达到 最 大 115kbps 的 传输 速度 。 

IMT-2000 MC 模式 最 初 称 为 cdma2000， 它 能 在 IMT 频谱 的 各 种 频段 (450、700、800、900、 
1700. 1800. 1900 和 2100MHz) 下 工作 。 为 了 简化 cdma2000 的 部 署 ， 过 渡 的 框架 由 4 个 阶段 组 
成 ， 每 个 阶段 兼容 前 面 的 阶段 ， 同 时 与 cdmaOne 兼容 。 

cdma2000 1X (或 1X RTT) 规范 也 称 为 高 速率 包 数 据 空中 接口 规范 ， 它 提供 了 增强 的 服务 ， 
它 的 传输 尖峰 速率 可 以 达到 307kbps, 平均 速率 可 以 达到 144kbps。 这 个 空气 接口 提供 的 数据 容量 
是 IS-95B 的 2~3 倍 .1X 表示 它 为 cdmaOne 占用 1 倍 带 宽 的 通道 一 一 每 个 通道 1.25MHz 载波 带宽 。 
和 IS-95 空中 接口 一 样 ， 其 基 片 的 速率 为 1.2288Mcps〔 兆 基 片 每 秒 )。 

cdma2000 的 下 一 步 部 署 是 cdma2000 1xEV (EV 代表 进化 )， 它 可 以 分 成 两 个 阶段 。 尽 管 应 
首先 考虑 与 ANSI-41 HA, 但 它 的 空中 接口 试图 同时 支持 ANSI-41 和 GSM MAP 网 络 。 第 一 个 阶 
段 称 为 1xEV-DO (RABE, Data Only )， 该 阶段 支持 的 最 高 数据 传输 速率 为 2.4Mbps。 语 音 通 
信 通 过 单独 的 通道 传输 。 第 二 个 阶段 称 为 1xEV-DV (数据 和 语音 ，Data and Voice), 它 使 得 1xEV 
的 接口 同时 支持 语音 通信 。 它 还 承诺 实现 更 高 的 数据 传输 速率 〈 最 高 达到 4.8 Mbps). 

3G 的 最 后 阶段 就 是 在 IMT-2000 中 推荐 MC 模式 。 它 被 看 作 是 cdma 2000 3X (或 3X RTT), 
因为 它 使 用 5MHz (3x1.25MHz 的 信道 ) 载波 频谱 来 传送 2~4 Mbps 的 峰值 速率 。 芯 片 速率 也 是 
三 倍 于 3.686 Mcps。 

典型 的 3G 数据 库 是 2Mbps〈 室 内 固定 应 用 ) 和 384 kbps/128 kbps《〈 慢 /快速 移动 用 户 )。 

2. GSM 的 演化 

GSM 无 线 接 入 网 络 (RAN) 使 用 GSM MAP 核心 网 络 。IMT-2000 的 DS 和 TOD 模式 就 是 基 
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于 为 GSM MAP 网 络 开 发 的 WCDMA 技术 的 。GSM 是 基于 TDMA 的 技术 ， 因 此 它 与 WCDMA 
的 兼容 性 比 IS-95 差 。 因 此 ，3G 的 WCDMA 标准 并 没有 与 目前 的 GSM 网 络 兼容 。 此 外 ， 每 次 向 
3G 的 过 渡 都 需要 移动 站 对 其 他 操作 模式 的 支持 。 

GSM 是 只 支持 电路 交换 通信 的 2G 网 络 。 通 用 分 组 无 线 业 务 (GPRS) 是 一 个 2.5G 的 增强 技 
术 ， 它 支持 包 交换 和 更 高 的 数据 速率 。 和 CDMA 2000 1X —#, EDGE (全 球 进化 增强 数据 率 或 
增强 数据 GSM 环境 ) 支 持 的 最 高 数据 速率 是 GSM 和 GPRS 的 3 倍 .EDGE 仍然 是 一 个 基于 TDMA 
的 标准 ， 它 主要 用 于 GSM 向 WCDMA 的 进化 。 然 而 在 IMT-2000 中 ， 它 被 定义 为 用 于 单 载体 模 
式 (IMT-SC) 的 UWC-136， 这 也 是 一 个 3G 的 解决 方案 。 使 用 新 的 调制 和 无 线 电 技 术 ， 它 能 达 
到 最 高 384kbps 的 数据 速度 ， 从 而 优化 可 用 频谱 的 使 用 。 

最 终 , 3G 技术 (也 称 为 3GSM) 会 根据 IMT-2000 建议 的 WCDMA 模式 进行 修改 .WCDMA 
具有 两 种 操作 模式 ， 直 频 (DS)， 也 称 为 频 分 双 工 (FDD) 和 时 分 双 工 (TDD). FOD 模式 用 于 
在 数据 上 行 通 道 和 下 行踪 道中 采用 不 同 的 频率 时 分 配 的 成 对 的 频谱 中 。 对 于 没有 出 现 频率 对 的 
网 络 而 言 , 数据 在 上 行 和 下 行 通道 中 进行 传播 应 该 采用 同一 个 频率 。 这 是 使 用 时 间 段 来 完成 的 ， 
上 行 和 下 行 传输 在 不 同 的 时 间 段 内 进行 。 在 移动 端 ， 它 还 需要 一 个 比 TDMA 更 复杂 的 时 间 控 制 

WCDMA 的 空中 接口 与 帘 带 CDMA 空中 接口 的 主要 区 别 如 下 ; 

。 为 了 支持 高 达 2Mbps 的 码 率 ， 需 要 为 其 分 配 更 宽 的 通道 带宽 。WCDMA 的 通道 带宽 为 

5MHz， 而 IS-95 和 其 他 早期 标准 的 带宽 为 1.25MHz。 

。 为 了 充分 利用 5MHz 的 带宽 ， 还 需要 有 更 高 基 片 速率 的 更 长 的 扩展 码 。WCDMA 指定 的 基 

片 速率 为 3.84Mcps， 而 IS-95 的 指定 基 片 速率 为 1.2288Mcps。 

。 WCDMA 支持 可 变 码 率 ， 其 范围 从 8kbps~2Mbps。 这 是 使 用 可 变 长 度 的 扩展 码 和 10 毫秒 
的 时 间 帧 来 达到 的 。 在 10 毫秒 的 时 间 帧 中 ,用 户 数据 速率 保持 不 变 ， 但 是 可 以 从 一 个 数据 
帧 转换 到 另 一 帧 一 一 这 便 是 按 需 带宽 (Bandwidth on Demand, BoD). 

。 WCDMA 基站 使 用 带 有 Gold 编码 的 异步 CDMA， 这 样 便 避免 了 IS-95 的 基站 中 需要 使 用 
GPS 来 保证 时 间 同 步 的 问题 。WCDMA 的 基站 可 以 变 得 更 小 ， 成 本 更 低 ， 进 而 可 以 被 放置 
在 室内 。 


17.1.7 无 线 局 域 网 


由 于 有 多 种 多 样 的 语音 和 数据 应 用 ， 一 直 以 来 ,无线 WAN 广域网 ) 都 很 流行 。 越 来 越 多 
的 膝 上 型 电脑 用 户 对 无 线 LAN (局域网 ) 产生 了 极 大 的 兴趣 。 不 仅 如 此 ， 最 近 出 现 的 普 适 计算 [6] 
带 来 了 无 线 LAN (WLAN) 的 新 浪潮 。 

1. IEEE 802.11 - 

IEEE 802.11 是 IEEE 802.11 工作 组 最 早 开 发 WLAN 标准 。 它 规定 了 位 于 半径 为 几 百 英尺 的 
局 部 区 域 之 内 的 无 线 连接 的 介质 访问 控制 MAC) 和 物理 (PHY) 层 。PHY 既 支 持 跳 频 (FH) 
扩展 频谱 ， 也 支持 直 频 (DS) 扩展 频谱 。 所 使 用 的 ISM 频段 为 2.4GHz。 此 外 ， 它 也 能 支持 ( 散 
射 的 ) 红外 线 来 进行 10~20 米 范围 内 的 户 内 通信 。 

WLAN 可 以 作为 有 线 LAN 的 替代 物 或 者 一 个 扩展 。 和 以 太 网 类 似 ，802.11 的 基本 访问 控制 
方法 是 载波 侦 听 多 路 访问 /冲突 避免 (CSMA/CA)。802.11 支持 的 数据 传输 率 为 1Mbps 和 2Mbps。 

802.11 标准 也 解决 了 下 列 重要 问题 : 

。 安全 加 强 了 认证 和 加 密 ， 因 为 WLAN 很 容易 被 侵入 。 

。 能 源 管理 ”在 没有 传输 的 时 候 节 约 能 源 ， 并 控制 休眠 和 唤醒 。 


491 
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。 漫游 ”允许 不 同 接 入 点 对 基本 消息 格式 的 接受 。 

2. IEEE 802.11b 

IEEE 802.11b 是 对 802.11 的 一 个 增强 。 它 依然 使 用 DS 扩展 频谱 ， 并 在 2.4GHz 频段 上 工作 。 
在 新 的 技术 ， 特 别 是 在 补 码 键 控 (CCK) 调制 技术 的 帮助 下 ， 除 了 原来 的 LMbps 和 2Mbps， 它 还 
能 支持 5.SMbps 和 11Mbps， 它 的 功能 已 经 与 以 太 网 不 相 上 下 了 。 

在 北美 ，802.11 和 802.11b 分 配 的 频谱 为 2.400 GHz~2.4835GHz。 不 考虑 传输 率 〈1Mbps、 
2Mbps、5.5Mbps， 或 者 11Mbps)，DS 扩展 频谱 通道 的 带宽 为 20MHz。 三 个 非 重 例 的 DS 通道 能 
够 同时 使 用 ， 人 允许 一 个 局 部 区 域内 最 多 可 以 有 3 个 接 入 点 。 

IEEE 802.11b 已 经 得 到 公众 的 接受 ， 并 出 现在 所 有 WLAN 中 ， 包 括 大 学 校园 、 机 场 、 会 议 中 
心 等 。 

3. IEEE 802.11a 

IEEE 802.11a 在 SGHz 的 频段 上 工作 ， 并 支持 OMbps~54Mbps 的 传输 率 。 它 使 用 正 交 频 分 复 
用 (OFDM), WTE DS 扩展 频谱 。 它 允许 12 个 非 重 冯 的 通道 ， 因 此 一 个 局 部 区 域内 最 多 可 有 

12 个 接 入 点 。 

因为 802.11a 在 更 高 频段 上 (5GHz) 工作 ， 与 802.11 和 802.11b 相 比 ， 它 面 对 的 射频 (RF) 
干扰 (例如 来 自 无 绳 电话 ) 较 少 。 由 于 具有 较 高 的 传输 率 ， 它 可 以 很 好 地 支持 LAN 环境 中 各 种 
多 媒体 应 用 。 

高 性 能 无 线 电 局 域 网 CHIPERLAN/2) 是 下 EE 802.11a 在 欧洲 的 一 种 同属 。 它 也 工作 在 SGHz 
的 频段 上 ， 能 够 提供 最 高 54Mbps 的 传输 率 。Wesel[2] 中 有 关于 HIPERLAN 的 详细 描述 。 

4，IEEE 802.11g 和 其 他 

IEEE 802.11g 是 802.11b 的 扩展 ,是 对 在 2.4GHz 频段 下 获得 最 高 54Mbps 传输 率 的 一 种 尝试 。 
和 802.11a 一 样 ， 这 里 使 用 了 OFDM 而 不 是 DS 扩展 频谱 。 然 而 ，802.11g 仍然 会 遇 到 比 802.11a 
更 高 RF 干扰 ， 就 像 在 802.11b 中 一 样 ， 它 在 局 部 区 域内 最 多 只 能 有 3 个 接 入 点 。 

IEEE 802.11g 向 下 兼容 802.11b， 这 给 802.11g 网 络 上 所 有 的 802.11b 和 802.11g 用 户 都 带 来 
了 极 大 的 开销 。 

另外 6 个 802.11 标准 正在 开发 之 中 ， 用 于 处 理 WLAN 不 同 的 方面 。 本 章 的 17.4 HARK 
些 标准 的 WWW URL. 特别 的 ，802.11e 处 理 关 于 QoS 的 MAC 增强 ， 特 别 是 语音 和 视频 的 优 
先 传输 。 

5 BF 

蓝牙 (以 10 世纪 的 丹麦 国王 Harold Bluetooth #4) 是 一 种 用 于 短 距 离 无 线 通 信 的 新 协议 。 
特别 的 ， 它 能 够 代替 连接 移动 和 固定 的 计算 机 和 设备 的 电缆 。 它 使 用 位 于 2.4GHz ISM 频段 的 FH 
扩展 频谱 和 一 个 全 双 工 的 信号 ， 这 个 信号 在 以 1MHz 为 间隔 的 79 个 频率 之 间 跳 动 ， 跳 动 的 频率 
为 每 秒 1600 跳 。 蓝 牙 支持 电路 交换 和 包 交 换 。 它 最 多 支持 3 个 语音 通道 〈 每 个 通道 都 是 对 称 的 
64kbps) 和 多 于 一 个 的 数据 通道 〈 每 个 通道 都 是 对 称 的 400kbps)。 

蓝牙 联盟 的 网 站 (www.bluetooth.com) 提供 了 详细 的 核心 规范 ， 包括 在 蓝牙 环境 中 使 用 无线 
应 用 协议 CWAP) 的 描述 。 例 如 ， 在 “briefcase trick” 中 ， 用 户 的 移动 电话 可 以 周期 性 地 与 他 的 
膝 上 型 电脑 通信 ， 这 样 就 可 以 从 手持 电话 上 查看 e-mail 而 不 需要 打开 公文 包 。 

Sony 的 一 些 便携 式 摄像 机 已 经 内 置 了 蓝牙 接口 。 这 便 可 以 将 移动 的 或 者 静止 的 图 片 发 送 到 PC 
上 ,或 者 通过 装配 有 蓝牙 的 移动 电话 直接 发 送 到 网 络 上 去 ,在 10 米 之 内 ,传输 速率 可 以 超过 700kbps。 
这 种 便携 式 摄像 机 甚至 能 够 用 于 浏览 WWW 和 发 送 带 有 JPEG 或 者 MPEG-1 附件 的 e-mail。- 
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172 无 线 电 传播 模式 


无 线 电 传输 通道 具有 的 工程 难题 比 有 线 通 道 更 多 。 在 这 一 节 里 ， 我 们 将 简要 介绍 最 常用 的 无 
线 电 通道 模型 来 了 解 造成 位 / 帧 错误 的 原因 ， 并 对 位 错误 进行 分 类 ， 了解 错 误 的 数量 ， 以 及 是 否 是 
FRAT 

很 多 效应 会 造成 无 线 电 信和 号 在 接收 端的 质量 下 降 (这 里 所 指 的 并 不 只 是 噪声 )。 这 些 效应 可 
以 分 为 短程 效应 和 长 程 效应 。 相 应 地 ， 多 径 误 减 模式 适用 于 小 规模 的 衰减 通道 ， 而 路 径 损耗 模型 
则 适用 于 长 程 的 大 气 衰减 通道 。 

对 于 户 内 通道 ， 无 线 电信 号 的 强度 都 比较 低 ， 狭 小 空间 内 物体 也 比较 多 ， 有 的 还 在 运动 。 因 
此 ， 多 径 衰 减 是 信号 质量 下 降 的 主要 因素 ， 由 此 可 以 建立 衰减 模型 。 在 这 种 环境 里 ， 传 输 的 信号 
被 分 开通 过 多 个 路 径 到 达 接收 者 ， 每 个 路 径 都 有 自己 的 衰减 程度 、 相 位 延迟 和 时 延 。 

多 径 衰 减 模型 随机 确定 接收 到 的 信号 的 振幅 ， 根 据 接收 者 添加 的 信号 是 破坏 相 加 还 是 构造 
相 加 ， 确 定 的 振幅 是 不 同 的 。 信 和 号 衰减 的 原因 包括 反射 、 折 射 、 散 射 和 衍射 〈 主 要 由 移动 物体 
引起 )。 

户外 也 有 折射 、 衍 射 和 散射 效应 ， 多 数 是 由 地 面 和 建筑 物 引 起 。 然 而 ， 长 程 通信 中 占 主 导 地 
位 的 是 大 气 衰减 。 根 据 频率 的 不 同 ， 无 线 电波 能 够 穿 透 电离 层 (> 3 GHz) 并 建立 起 视 距 〈LOS) 
通信 ， 而 频率 稍 低 的 电波 被 电离 层 和 地 面 反射 ， 或 者 沿 着 电离 层 传播 到 接收 端 。 高 于 3 GHz 的 频 
率 〈 要 保证 卫星 通信 穿 透 电离 层 ， 这 是 必需 的 ) 会 经 历 气体 的 衰减 ， 氧 气 和 水 〈 水 蒸气 和 降雨 ) 
是 主要 影响 因素 。 


17.2.1 ZARA 

衰减 模型 尝试 着 对 接收 端 添加 的 信号 的 振幅 进行 建 模 。 信 号 的 多 普 勒 扩散 定义 为 频谱 上 信号 
强度 的 分 布 ( 信 号 在 特定 的 频率 带宽 上 进行 调制 )。 当 信号 的 多 普 勒 扩散 足够 小 的 时 候 ， 信 号 是 
一 致 的 ， 也 就 是 说 ， 接 收 端 只 有 一 个 可 辨识 的 信号 。 窄 带 信号 通常 是 这 种 情况 。 然 而 ， 如 果 信 号 
是 宽带 的 , 不 同 频率 的 信号 有 不 同 的 衰减 路 径 , 在 接收 端 可 以 观测 到 多 个 可 不 同 的 分 时 信号 路 径 。 
对 于 窄带 信和 号， 最 常用 的 模型 是 Rayleigh 衰减 〈 瑞 利 衰 减 ) 和 Rician BHR EMM). 

Rayleigh 模型 假定 到 接收 者 的 无 数 个 无 视 距 (Line-of-Sight, LOS) 信号 路 径 ， 建 立 起 关于 接 
收 信号 振幅 r 的 概率 密度 函数 已; 


P; (r) = Z + e% (17.9) 
o 


这 里 o 是 概率 密度 函数 的 标准 差 。 虽然 信号 路 径 的 数目 通常 都 不 大 , 但 Rayleigh 模型 仍然 对 路 径 
数 大 于 5 的 情况 提供 了 一 个 很 好 的 近似 。 

假定 了 一 个 视 距 的 更 常用 的 模型 就 是 Rician 模型 。 它 定义 了 一 个 天 因子 作为 信号 强度 和 散射 
强度 的 比值 。 也 就 是 说 , KRÆ LOS 的 信号 比 其 他 路 径 强 的 倍数 。Rician 概率 密度 函数 已 为 


r sk r s 
P(r)=— te? 1( 一 V2R), 其 中 天 = 一 (17.10) 
o o 20 


像 前 面 一 样 ，r Mo 分 别 为 信号 的 振幅 和 标准 差 ，s 为 LOS 信和 号 强度 。 五 是 一 个 修改 过 的 0 
阶 的 第 一 类 贝 塞 尔 函 数 。 注 意 , 当 s=0CK=0) 的 时 候 , LOS 并 不 存在 , 因此 模型 简化 为 一 个 Rayleigh 
分 布 。 当 天 = co 时 ， 模 型 反映 了 加 性 高 斯 白 嗓 声 (AWGN) 状况 。 图 17-6 展示 了 当 因子 分 别 
为 0、1、3、5、10 和 20， 标 准 差 o =1.0 时 的 Rician 概率 密度 函数 。 
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对 于 宽带 信号 ， 衰 减 路 径 更 多 是 通过 经 验 获 得 。 其 中 一 种 方法 是 将 振幅 建 模 为 所 有 路 径 
上 的 总 和 ， 每 一 个 路 径 都 有 随机 的 衰减 。 对 于 一 个 封闭 的 环境 ， 路 径 数目 可 以 为 7 〈6 面 墙 和 
LOS)， 对 于 其 他 环境 ， 路 径 数 可 以 取得 更 大 。 另 一 种 技术 是 通过 测量 通道 的 神 激 响应 来 为 通 
ERRER. 


PO ko 





图 17-6 KAFĄ O 1, 3, 5, 10 和 20 的 Rician PDF 图 


CDMA 系统 中 使 用 一 种 相似 的 技术 ， 这 种 技术 也 在 cdma2000 中 提出 ， 也 被 加 入 到 WCDMA 
作为 最 后 一 致 同意 的 方案 的 一 部 分 。CMDA 站 〔 既 指 移动 站 也 指 基站 ) 具有 起 式 接收 器 ， 其 实 是 
多 个 CDMA 无 线 电 接收 器 ， 这 些 接收 器 调谐 为 具有 不 同 相 位 和 振幅 的 信号 ， 把 划分 为 不 同 可 辩 
识 路 径 的 CDMA 传输 重新 组 合 在 一 起 。 将 每 个 把 式 接 收 器 中 的 信号 累加 起 来 以 获得 更 好 的 SNR。 
为 了 把 把 式 接收 器 调谐 到 适当 的 衰减 路 径 , CDMA 系统 通过 一 个 特殊 的 导 频 通道 发 送 一 个 导 频 信 
号 ， 披 式 接受 器 做 出 相应 的 调整 来 识别 每 个 衰减 路 径 上 的 符号 。 

17.2.2 路径 损耗 
对 于 长 程 通信 ， 信 号 的 损失 主要 是 衰减 。LOS 传输 的 空闲 空 间 衰减 模型 与 距离 的 平方 (a) 
成 反比 ， 并 由 Friis 方程 给 出 
_ S:G,G,A? 
” (4r2)d21 
S 和 5, 是 接收 到 和 传输 的 信号 强度 ，G, 和 G; 是 天 线 增益 因子 ，4 是 信和 号 的 波长 ， 而 工 为 接收 端 
的 损耗 。 然 而 ， 从 中 可 以 看 出 ， 如 果 假 设 有 地 面 反 射 ， 衰 减 会 增加 到 与 4 成 正比 。 

另 一 种 常见 的 介质 规模 〈 城 市 大 小 ) 模型 是 Hata 模型 ， 它 是 基于 东京 的 Okumura 路 径 损失 

数据 根据 经 验 推导 出 来 的 。 以 dB 为 单位 的 路 径 损 失 方程 的 基本 形式 由 下 式 给 出 : 

L=A+B-logio(d)+C (17.12) 
RE, A 是 频率 和 天 线 高 度 的 一 个 函数 ， 好 是 一 个 环境 函数 ，C 是 和 载波 频率 有 关 的 一 个 函数 。 
同样 ，4 是 发 送 端 到 接收 端的 距离 。 

卫星 模型 的 衰减 主要 由 降雨 引起 。 因 此 ， 气 象 降雨 密度 图 可 以 用 在 这 个 领域 中 。 衰 减 可 以 根 
据 该 区 域 在 给 定 日 期 的 降雨 量 计算 得 到 。 


(17.11) 
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17.3 无 线 网 络 上 的 多 媒体 4 


我 们 已 经 学 习 了 当前 2G 网 络 到 未 来 高 容量 3G 网 络 的 演变 ,但 是 3G 网 络 真 的 是 有 必要 的 吗 ? 
无 线 网 络 上 的 多 媒体 显然 需要 更 高 的 带宽 。 暗 含 的 多 媒体 应 用 包括 从 网 站 浏览 、 流 视频 、 视 频 会 
议 、 协 同 工 作 、 约 灯 片 演示 到 增强 的 路 边 信息 亭 和 可 供 司机 下 载 的 GPS 地 图 。 

在 这 一 节 中 ， 我 们 主要 关注 在 无 线 网 络 上 稳定 地 传输 视频 ， 比 如 为 视频 会 议 发 送 视频 。 这 种 
应 用 在 3G 手持 设备 上 将 会 大 放 异 彩 ， 因 为 它 是 语音 通信 的 一 种 自然 的 扩展 。 

由 于 无 线 数据 传输 可 能 出 现 大 量 的 数据 丢失 和 失真 ， 因 此 对 错误 具有 恢复 能 力 和 错误 修复 就 
成 为 我 们 需要 关注 的 话题 了 。 因 此 ， 我 们 在 这 一 节 介 绍 一 些 关于 同步 损失 、 错 误 恢复 粹 编码 、 错 
误 隐 藏 和 前 向 纠 错 (FEC) 的 概要 描述 ， 虽 然 其 中 的 大 部 分 技术 也 可 以 应 用 到 其 他 类 型 的 网 络 中 。 

设计 多 媒体 传输 (特别 是 视频 传输 ) 的 时 候 ， 要 考虑 无 线 手持 设备 的 一 些 特 人 性。 首先， 手持 
设备 的 大 小 和 电池 时 间 限 制 了 设备 的 处 理 能 力 和 内 存 容量 。 因 此 ， 编 码 和 解码 的 复杂 度 必须 相对 
较 低 。 当 然 ， 较 小 的 设备 的 一 个 优点 就 是 可 以 接受 较 低 分 辩 率 的 视频 ， 这 有 助 于 减少 处 理 时 间 。 

其 次 ， 由 于 内 存 限 制 和 使 用 无 线 设 备 的 原因 ， 以 及 计 费 过 程 ， 实 时 通信 很 有 可 能 是 必需 的 。 
看 到 视频 之 前 有 太 长 的 延迟 是 让 用 户 无 法 接受 的 。 

最 后 ， 无 线 通道 比 有 线 通 道 的 干扰 更 大 ， 根 据 环境 状况 有 不 同 的 数据 丢失 现象 。 无 线 通道 的 
码 率 也 更 加 有 限 ， 尽 管 3G 的 码 率 更 适合 于 视频 。 这 意味 着 虽然 要 应 用 大 量 的 位 保护 ， 但 是 也 必 
须 考虑 编码 效率 。 错 误 恢 复 编码 是 很 重要 的 。 

3G 标准 规定 ， 视 频 应 该 是 标准 兼容 的 。 不 仅 如 此 ， 大 多 数 公司 会 应 用 标准 来 开发 产品 ， 这 
是 为 了 保证 移动 设备 和 网 络 的 互 操作 性 。 适 合 无 线 网 络 使 用 的 视频 标准 包括 MEPG-4 和 H.263 和 
它 的 变 体 ， 因 为 它们 所 和 需 的 码 率 较 低 。 

3GPP2 小 组 为 无 线 视 频 会 议 服务 定义 了 如 下 QoS 参数 [7]。 无 线 部 分 规定 的 QoS 参数 相对 于 
端 到 端 传输 所 需 的 参数 更 加 严格 。 而 3GPP 中 多 媒体 传输 的 QoS 需求 基本 上 是 一 致 的 [8]。 

。 同步 ”视频 和 音频 应 在 20 毫秒 内 保持 同步 。 

。 吞吐 最 最 小 的 视频 码 率 为 32kbps， 也 支持 128kbps、384kbps 和 更 高 的 速率 。 

HEIR ” 端 到 端 传输 的 最 大 延迟 为 400 BP. 

。 拌 动 ” 最 大 的 延迟 拉动 (平均 的 延迟 和 95% 的 延迟 分 布 之 间 的 最 大 差别 ) 为 200 毫秒 。 

。 错误 率 ” 对 于 电路 交换 传输 来 说 , 视频 会 议 系 统 应 该 能 够 容忍 10 ?的 帧 错误 或 103 的 位 错 

误 率 。 

接 下 来 ， 我 们 将 要 讨论 视频 序列 面 对 位 错误 时 的 脆弱 性 和 提高 适应 错误 能 力 的 方法 。 
17.3.1 同步 损失 

视频 流 既 可 以 在 分 包 后 通过 包 交 换 通道 传输 ， 也 可 以 作为 连续 的 位 流 在 电路 交换 通道 上 传 
输 。 在 任何 一 种 方式 下 ， 包 丢失 或 者 位 错误 都 会 降低 视频 质量 。 如 果 位 丢失 或 者 包 丢 失 只 是 出 现 
在 视频 空间 和 时 间 的 一 个 局 部 区 域 ， 那 么 这 种 丢失 是 可 以 接受 的 ， 因 为 一 帧 只 会 显示 很 短 的 一 段 
时 间 ， 并 且 小 的 错误 并 不 会 引起 注意 。 

然而 ， 数 字 视 频 编码 技术 涉及 变 长 编码 ， 帧 是 按照 不 同 的 预测 和 量化 级 别 进行 编码 的 。 遗 憾 
的 是 ， 当 一 个 包含 变 长 信息 数据 的 包 〔 比 如 DCT 的 系数 ) 损坏 ， 那 么 这 个 错误 如 果 不 限制 的 
话 ) 将 会 在 整个 流 上 传播 。 这 种 现象 叫做 解码 同步 损失 。 即 使 解码 器 能 够 因为 无 效 的 编码 符号 或 
系数 超出 范围 而 检测 到 错误 ， 它 仍然 不 能 找到 下 一 个 开始 解码 的 位 置 [9]。 

正如 我 们 在 第 10 章 中 所 学 习 到 的 ， 按 照 标准 协议 层 编 码 的 视频 不 会 出 现 这 种 位 流 完全 损失 
的 情况 。 图 像 层 和 块 组 (GOB ) 层 或 者 切片 头 含有 同步 标记 , 可 以 保证 解码 的 重 同步 。 例如 , H.263 
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位 流 有 四 个 层 一 一 图 像 层 、GOB 层 、 宏 块 层 和 块 层 。 图 像 层 从 唯一 的 22 位 图 像 开 始 编码 (PSC) 
开始 。 最 长 的 箭 编码 符号 为 13 位 ， 因 此 PSC 可 作为 一 个 同步 标记 。GOB 层 用 于 几 个 块 而 不 是 整 
个 帧 后 的 同步 。 块 组 开始 编码 (GBSC) 为 17 位 长 ， 也 能 够 作为 同步 标记 “。 宏 块 和 块 层 并 不 包 
含 唯一 的 开始 编码 ， 因 为 认为 它们 会 引起 高 的 开销 。 

H.261 后 的 ITU 标准 (例如 H.263、H.263+ 等 ) 支持 片段 结构 模式 而 不 是 GOB (H.263 Annex 
K)， 其 中 ， 片 段 组 按照 块 的 编码 位 长 而 不 是 块 的 数目 聚集 在 一 起 。 其 目的 是 为 了 在 排 开 这 些 片段 
头 的 时 候 保证 它们 之 间 的 距离 在 已 知 范围 之 内 。 这 样 做 的 话 ， 当 一 个 位 流 错误 看 上 去 像 一 个 同步 
标记 ， 如 果 这 个 标记 并 不 是 片段 头 应 该 在 的 位 置 ， 它 将 被 丢弃 ， 就 不 会 发 生 错 误 的 重 同步 。 

由 于 片段 需要 将 一 定数 目的 宏 块 组 合 在 一 起 ， 而 宏 块 是 使 用 VLC 进行 编码 的 ， 因 此 要 让 所 
有 的 片段 大 小 一 致 是 不 可 能 的 。 不 过 ， 这 里 是 存在 一 个 最 小 距离 的 ， 在 这 个 距离 之 后 ， 下 一 个 扫 
描 到 的 宏 块 将 加 入 到 一 个 新 的 片段 中 。 我 们 知道 ， 宏 块 和 运动 向 量 中 的 DC 系数 的 编码 方式 是 不 
一 样 的 。 因 此 ， 即 使 一 个 宏 块 被 破坏 且 解 码 器 确认 了 下 一 个 同步 标记 的 位 置 ， 它 也 不 一 定 能 够 对 
这 个 流 进行 解码 。 

为 了 减轻 这 个 问题 ， 片 段 也 重 置 了 空间 预测 参数 ， 跨 越 片段 边界 的 不 同 编码 方式 是 不 允许 使 
FAR. ISO MPEG 标准 (和 H.264) 规定 片段 并 不 一 定 具 有 相近 的 位 长 ， 这 样 一 来 也 无 法 保证 不 
出 现 错误 的 标记 。 

除了 同步 损失 ， 我 们 也 应 当 注 意 到 ， 预 测 参考 帧 中 的 错误 比 不 用 于 预测 的 帧 中 错误 引起 的 信 
号 质量 损失 更 多 。 也 就 是 说 , 1 帧 中 的 帧 错误 对 视频 流质 量 的 损害 要 大 于 PP 帧 或 者 B 帧 中 的 错误 。 
类 似 的 , 如 果 视 频 是 可 扩展 的 , 那么 基础 帧 中 的 错误 对 视频 流质 量 的 损害 要 大 于 增强 帧 中 的 错误 。 

MPEG-4 定义 另外 一 种 错误 恢复 工具 ， 它 们 可 用 于 噪声 或 者 无 线 通道 环境 下 的 编码 。 它 们 是 
对 片段 编码 和 可 道 变 长 编码 (RVLC) 的 补充 [10，11]。 为 更 加 有 助 于 同步 ， 一 种 数据 划分 方案 可 
以 将 头 信息 、 运 动向 量 和 DCT 系数 包括 和 分 离 到 不 同 的 包 中 ， 并 在 它们 之 间 加 上 同步 标记 。 我 
们 随后 将 看 到 ， 这 样 的 方案 对 非 对 称 保护 的 前 向 纠 错 《FEC) 方案 也 是 很 有 好 处 的 。 

另外 ， 还 可 以 使 用 一 种 帧 内 自 适应 刷新 模式 ， 在 这 种 模式 下 ， 每 个 宏 块 基于 其 运动 独立 地 编 
码 为 帧 间或 者 帧 内 的 块 ， 从 而 有 助 于 错误 隐藏 。 运 动 快 的 块 需要 的 刷新 频率 更 高 。 也 就 是 说 ， 通 
常会 按照 帧 内 模式 编码 。 同 步 标记 辨认 起 来 会 更 加 容易 ， 特 别 适合 处 理 能 力 有 限 的 设备 ， 比 如 手 
机 和 移动 设备 。 

对 于 交互 式 应 用 , 如 果 编 码 器 可 以 使 用 后 向 通道 , 那么 就 可 以 使 用 一 些 额 外 的 错误 控制 技术 ， 
这 些 技术 可 归纳 为 发 送 端 -接收 端 反馈 类 别 。 根 据 当 前 可 用 的 带宽 ， 接 收 端 可 以 请 求 发 送 端 降低 
或 者 提高 视频 的 码 率 〈 传 输 速率 控制 )， 这 可 以 处 理由 于 拥塞 而 引起 的 包 丢 失 。 如 果 流 是 可 扩展 
的 ， 那 么 它 也 能 够 控制 增强 层 。 

除 此 之 外 ，H.263+ 的 Annex N 规定 接收 端 能 够 注意 到 参考 帧 中 的 错误 ， 并 请 求 编码 器 使 用 其 
他 参考 帧 来 预测 一 一 解码 器 已 经 正确 重建 的 参考 帧 。 

以 上 的 技术 能 够 在 无 线 实时 视频 应 用 (比如 视频 会 议 ) 中 使 用 ， 因 为 无 线 蜂 窝 通 信 在 必要 情 
况 下 可 以 支持 一 个 后 向 通道 。 然 而 ， 很 明显 ， 不 用 后 向 通道 〈 它 会 减少 上 行 链 路 中 的 多 路 访问 干 
Kh) 开销 会 比较 小 。 


17.3.2 Bini Say 
GOB 、 片 段 和 同步 标记 的 主要 目标 都 是 尽快 在 出 现 错误 后 重新 建立 起 解码 器 的 同步 。 在 





名” 同步 标记 一 般 都 比 最 小 需求 要 大 ， 以 防止 位 错误 将 一 些 位 变 得 和 同步 标记 一 样 。 
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H263+ 的 Annex N 中 ， 片 段 的 修复 效果 更 好 ， 因 为 它们 进一步 限定 了 流 可 以 在 哪里 进行 同步 。 然 
T BAPA BIR A (EREC) 的 算法 在 每 一 个 宏 块 后 都 能 够 达到 同步 ， 而 并 没有 
片段 头 或 者 GOB 头 那样 的 开销 。 这 种 算法 之 所 以 叫做 EREC， 是 因为 它 使 用 了 焙 编 码 变 长 宏 块 ， 
并 且 以 一 种 错误 修复 的 方式 来 重新 排列 它们 。 另 外 ， 它 可 以 适度 地 降低 级 别 。 

EREC 使 用 一 些 块 进行 编码 后 的 位 流 ， 并 把 它们 重新 排列 ， 以 使 得 所 有 块 的 开头 都 按照 固定 
距离 分 开 。 虽 然 这 些 块 的 大 小 是 任意 的 ， 也 可 能 是 我 们 希望 同步 的 任何 媒体 ， 但 接 下 来 要 描述 的 
是 视频 的 宏 块 。 算 法 的 流程 如 图 17-7 所 示 。 


”EREC 权 宏 块 
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图 17-7 使 用 ERELC 编码 宏 块 的 例子 


最 初 ， 固 定 长 度 的 EREC #4 GT) 分 配 到 的 总 位 长 等 于 (或 超过 ) 所 有 宏 块 的 总 位 长 。 模 的 
数目 与 宏 块 的 数目 相等 ， 只 是 宏 块 有 变化 的 位 长 ， 而 模 的 位 长 是 固定 的 〈 大 约 为 所 有 宏 块 的 平均 位 
长 )。 如 图 所 示 ， 当 总 的 位 数 没有 按照 槽 的 数目 等 分 的 时 候 ， 最 后 一 个 EREC 槽 〈 行 ) 会 比较 短 。 

令 大 为 宏 块 的 数目 ， 这 个 数目 与 槽 的 数目 相等 ，! 为 所 有 宏 块 的 总 位 长 ，mbs[] 为 宏 块 ，slots[] 
为 EREC 槽 ， 那 么 对 宏 块 编码 的 过 程 如 下 所 示 。 

过 程 17-1 EREC_Encode 
BEGIN 
j =0; 
Repeat until / = 0 


fori = Otok-1 


m = (i + j) mod k; 
// m is the macroblock number corresponding to slot i; 
Shift as many bits as possible (without overflow) from mbs[i] into slots[m]; 
sb = number of bits successfully shifted into slots[m] (without overflow); 
l=1— sb; 

} 

j=ith; // shift the macroblocks downwards 

} 
END 499 


宏 块 被 移 到 相应 的 槽 ， 直 到 宏 块 所 有 的 位 都 已 经 被 分 配 或 者 宏 块 剩 下 的 位 装 不 进 槽 中 为 止 。 
这 时 ， 宏 块 下 移 ， 过 程 重复 执行 。 

解码 器 工作 过 程 则 是 相反 的 ， 另 外 它 必须 检测 宏 块 什么 时 候 已 经 读 满 。 当 所 有 的 DCT 系数 
都 已 经 被 解码 时 ， 它 通过 检测 宏 块 的 结束 (或 者 一 个 块 的 结束 码 ) 来 实现 这 个 功能 。 图 17-8 展示 
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了 对 宏 块 进行 解码 的 过 程 的 例子 ， 这 些 宏 块 是 使 用 图 17-7 所 示 的 EREC 进行 编码 的 。 

槽 中 数据 的 传输 次 序 是 行为 主 的 ， 也 就 是 说 ， 模 0 中 的 数据 最 先 被 发 送 ， 接 下 来 是 发 送 槽 1 
中 的 数据 ， 依 此 类 推 ， 从 左 到 右 。 很 容易 看 出 ， 这 个 技术 对 错误 具有 恢复 能 力 。 无 论 在 什么 地 方 
出 现 损坏 ， 即 使 在 宏 块 的 开始 ， 我 们 仍然 知道 下 一 个 宏 块 从 何 处 开始 一 一 它 与 前 一 个 宏 块 之 间 的 
距离 是 固定 的 。 在 这 种 情况 下 ， 并 不 涉及 同步 标记 的 使 用 ， 因 此 GOB 层 或 者 片段 也 是 不 必要 的 
(虽然 我 们 仍然 希望 能 够 限制 错误 在 空间 上 的 传播 )。 











图 17-8 ”使 用 EREC 对 宏 块 进行 解码 的 例子 


若 宏 块 使 用 数据 划分 技术 比如 前 面 所 描述 的 MPEG-4 中 使 用 的 技术 ) 和 位 平面 划分 进行 编 
码 ， 当 接收 有 效 数 据 时 ， 位 流 中 的 错误 对 有 效 数据 产生 的 破坏 相对 比较 小 。 显 然 ， 模 末端 的 位 发 
生 错 误 传播 的 可 能 性 要 大 于 槽 起 始 端的 位 。 一 般 情况 下 ， 这 也 会 减轻 非 划 分 编码 方式 下 的 视觉 退 
化 。 在 错误 严重 的 情况 下 ， 这 能 够 取得 比较 好 的 降级 效果 。 


17.3.3 ”错误 隐藏 

尽管 人 们 很 努力 地 减少 错误 的 发 生 率 并 降低 错误 的 影响 ， 但 错误 仍然 让 人 烦恼 。 因 此 ， 人 们 
引入 了 错误 隐藏 技术 来 估计 解码 器 端 损失 的 数据 。 

许多 错误 隐藏 技术 应 用 在 空间 、 时 间 、 频 域 上 ， 或 者 它们 的 组 合 。 所 有 的 技术 都 使 用 时 间 上 
邻近 的 帧 或 者 空间 上 邻近 的 宏 块 。 传 输 流 编码 器 将 视频 包 交 织 起 来 ， 这 样 万 一 出 现 包 丢失 ， 错 误 
不 会 发 生 在 同一 个 地 方 ， 丢 失 的 数据 也 可 以 根据 邻近 数据 估计 出 来 。 

错误 隐藏 对 于 无 线 视频 通信 来 说 是 很 有 必要 的 ， 因 为 它 的 错误 率 比 有 线 通 道 的 要 高 ， 甚 至 可 
能 比 应 用 合适 的 位 保护 来 传输 的 错误 率 要 高 。 不 仅 如 此 ， 根 据 不 同 的 移动 性 或 者 天 气 状 况 ， 错 误 
率 的 变化 会 很 频繁 。 由 于 数据 丢失 或 者 接收 错误 而 引起 的 解码 错误 在 分 辨 率 有 限 和 屏幕 较 小 的 设 
备 上 更 容易 被 发 现 。 如 果 宏 块 比较 大 ， 以 便于 在 低 的 无 线 码 率 下 获得 好 的 编码 效率 ， 这 种 情况 会 
特别 明显 。 

接 下 来 是 错误 隐藏 技术 的 一 个 总 结 〈 参 考 [12] 来 获得 更 详细 的 信息 )。 

1， 处 理 丢 失 的 宏 块 

当 DCT 块 损坏 但 正确 接收 到 运动 向 量 的 时 候 ， 有 一 种 简单 而 常用 的 隐藏 技术 可 以 使 用 。 假 
定 没有 预测 错误 ， 丢 失 块 的 系数 可 以 从 参考 帧 中 估计 出 来 。 由 于 运动 补偿 视频 的 目的 就 是 将 预测 
错误 减 到 最 少 ， 因 此 这 是 一 个 适当 的 假定 。 这 样 ， 技 失 块 可 以 使 用 参考 帧 中 的 块 来 临时 代替 。 

如 果 视 频 是 可 扩展 的 ， 我 们 甚至 能 够 获得 更 好 的 效果 。 在 这 种 情况 下 ， 我 们 假定 基础 层 已 正 
确 接收 到 ， 并 且 它 包含 运动 向 量 和 最 重要 的 基础 层 系数 。 这 时 ， 对 于 增强 层 中 丢失 的 宏 块 ， 我 们 
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可 以 使 用 基础 层 中 的 运动 向 量 来 代替 增强 层 中 的 DCT 系数 ， 而 解码 方法 不 变 。 由 于 重要 性 较 低 
的 系数 已 估计 出 来 (例如 高 频 系数 )， 因 此 即使 是 估计 值 由 于 预测 错误 而 不 够 精确 ， 隐 藏 的 效果 
仍然 比 非 扩展 情况 要 好 。 

如 果 运动 向 量 的 信息 也 已 经 损坏 ， 只 有 当 运 动向 量 通过 其 他 隐藏 技术 〈 接 下 来 将 要 讨论 ) 估 
计 出 来 时 ， 才 能 够 使 用 这 个 技术 。 运 动向 量 的 估计 要 足够 好 ， 否 则 视频 的 视觉 效果 会 比较 差 。 为 
了 在 帧 内 使 用 这 个 技术 ， 一 些 标准 〈 例 如 MPEG-2) 也 允许 帧 内 编码 的 运动 向 量 的 获取 CBD. BE 
把 它们 当 作 帧 间 ， 也 当 作 帧 内 )。 如 果 块 没有 错误 ， 这 些 运动 向 量 就 会 被 丢弃 。 

2， 结 合 时 间 、 空 间 和 频率 的 一 致 性 

不 仅仅 依靠 运动 向 量 的 时 间 一 致 性 ， 我 们 还 可 以 结合 空间 和 频率 的 一 致 性 。 通 过 使 用 接收 到 
的 系数 和 同一 帧 中 的 相 邻 块 来 得 到 估计 丢失 块 系数 的 规则 ， 我 们 可 以 对 帧 内 和 运动 向 量 已 经 损坏 
的 帧 进行 错误 隐藏 。 另 外， 与 使 用 运动 向 量 进行 预测 结合 起 来 , 我 们 可 以 更 好 地 估计 预测 错误 块 。 

通过 将 定义 在 抉 和 邻近 块 上 的 平滑 函数 的 错误 减 到 最 小 ， 丢 失 块 的 系数 可 以 在 空间 上 估计 出 
来 。 为 了 简单 起 见 ， 平 滑 函 数 可 以 取 块 中 邻近 像素 对 的 方差 和 。 函 数 的 未 知 量 就 是 丢失 的 系数 。 B2 
在 运动 向 量 信息 可 用 的 情况 下 ， 预 测 的 光滑 度 加 到 目标 函数 中 以 进行 尽量 化 简 。 

上 述 这 种 简单 的 平滑 方法 有 一 个 问题 ， 它 把 边界 也 变 平滑 了 。 我 们 可 以 通过 把 平滑 标准 的 阶 
数 从 线性 提高 到 二 次 或 者 三 次 来 改进 它 。 这 会 增加 边界 重建 和 边界 方向 上 平滑 的 可 能 性 。 如 果 考 
虑 大 量 的 计算 开销 ， 我 们 可 以 使 用 一 种 边界 适应 的 平滑 方法 ， 由 此 ， 最 先 确定 块 内 的 边界 方向 ， 
并 禁止 穿 过 边界 的 平滑 。 

3， 高 频 系数 的 频率 平滑 

为 了 降低 计算 开销 ， 平 滑 可 以 定义 得 更 加 简单 一 些 。 虽 然 人 类 的 视觉 系统 对 低频 更 为 敏感， 
但 在 不 该 出 现 的 地 方 看 到 棋盘 格 图 形 也 是 让 人 难以 接受 的 。 当 高 频 系数 被 赋予 过 高 的 值 的 时 候 ， 
这 种 现象 就 会 发 生 。 最 简单 的 解决 方法 就 是 把 高 频 系数 设 为 0 (如 果 它 们 被 损坏 的 话 )。 

如 果 邻近 块 的 频率 是 相关 的 ， 就 有 可 能 直接 从 频 域 估计 出 丢失 的 系数 。 对 于 块 中 每 个 丢失 的 
频率 系数 ， 我 们 通过 对 四 个 相 邻 块 的 相同 频率 系数 作 播 值 来 估计 这 些 值 。 只 有 当 图 像 是 规则 模式 
的 时 候 ， 这 种 方法 才 对 高 频 有 效 。 遗 憾 的 是 ， 自 然 的 图 片 通常 都 不 是 这 样 ， 因 此 高 频 系数 通常 直 
接 设 为 0。 时 间 预 测 错误 块 在 所 有 频率 下 的 相关 度 甚至 都 更 小 ， 因 此 ， 这 种 方法 只 对 帧 内 有 效 。 

4， 运 动向 量 丢失 的 估计 

运动 向 量 的 丢失 会 使 得 整个 预测 块 的 解码 无 法 完成 , 因此 , 对 运动 向 量 进行 估计 是 很 重要 的 。 
估计 委 失 的 运动 向 量 的 最 简单 的 方法 就 是 把 它们 设 为 0。 当 运动 较 少 的 时 候 ， 这 种 方法 的 效果 不 
错 。 更 好 一 点 的 方法 就 是 检查 参考 宏 块 和 邻近 宏 块 的 运动 向 量 。 假 设 运动 也 是 一 致 的 ， 那 么 可 以 
把 相应 的 参考 帧 中 的 宏 块 的 运动 向 量 作为 已 损坏 的 目标 宏 块 的 运动 向 量 。 类 似 的 ， 假 设 持续 运动 
的 对 象 占用 不 止 一 个 宏 块 ， 那 么 损坏 宏 块 的 运动 向 量 就 可 以 由 正确 接收 到 的 邻近 块 的 运动 向 量 的 
插值 得 到 。 典 型 的 简单 插值 方案 是 加 权 平均 。 同 样 ， 运 动向 量 的 空间 估计 可 以 与 使 用 加 权 和 的 参 
考 帧 估计 结合 使 用 。 


17.3.4 前 向 纠 错 


有 些 数据 对 于 正确 解码 是 极其 重要 的 。 丢 失 的 DCT 系数 是 可 以 估计 得 到 的 ， 而 且 它 们 引起 
的 问题 在 某 种 程度 上 是 不 可 见 的 。 然 而 ， 某 些 丢失 或 者 无 法 准确 估计 的 数据 ， 比 如 图 像 编 码 模式 、 
量化 级 别 ， 或 者 视频 标准 协议 栈 的 高 层 中 的 大 部 分 数据 ， 将 会 引起 灾难 性 的 解码 错误 。 在 这 些 情 
况 下 ， 我 们 希望 能 够 保证 “无 错 ” 传 输 。 然 而 ， 大 部 分 通道 特别 是 无 线 通道 ) 是 有 噪声 的 ， 为 
了 保证 正确 进行 传输 ， 我 们 必须 提供 足够 的 重 传 宛 余 〈 如 果 没 有 后 向 通道 可 用 )。 
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前 向 纠 错 〈Forward. Error Correction, FEC) 就 是 一 种 通过 在 位 流 中 加 入 宛 余 数据 来 恢复 一 些 
随机 位 错误 的 技术 。 理 想 状态 下 ， 通 道 的 包 错误 率 〈 或 者 说 位 错误 率 ) 已 经 估计 出 来 ， 同 时 加 入 
了 足够 多 的 元 余数 据 来 保证 FEC 恢复 后 的 错误 可 能 性 比较 低 。 

包 错 误 率 可 以 通过 时 间 间 隔 来 估计 ， 这 里 选取 了 最 小 可 能 的 间隔 〈 目 的 是 最 小 化 等 待 时 间 和 
计算 开销 )， 它 可 靠 地 估计 了 帧 丢失 的 可 能 性 。 很 自然 ， 当 锤 发 帧 丢失 发 生 的 时 候 ,; 估计 的 值 可 
能 不 再 合适 。 

帧 错误 也 叫做 疑 符 ， 因 为 整个 包 在 发 生 错 的 时 候 都 丢失 了 。 视 频 必 须 在 一 个 带宽 有 限 的 通道 
上 传输 。 因 此 ， 将 元 余 减 到 最 少 是 很 重要 的 ， 否 则 它 会 占用 视频 源 编码 可 用 的 码 率 。 同 时 ， 为 了 
使 视频 能 够 在 当前 的 通道 错误 条 件 下 保持 所 需 的 QoS, 又 需要 足够 的 元 余 。 对 于 给 定 的 通道 环境 ， 
都 存在 一 个 最 佳 的 见 余 可 以 使 视频 的 失真 降 到 最 小 。 

FEC 编码 通常 分 为 两 类 : 块 编码 和 卷 积 编码 。 块 编码 同时 应 用 到 一 组 数位 以 立刻 生成 元 余 。 
卷 积 编码 一 次 应 用 在 一 串 位 上 并 拥有 内 存 来 保存 前 面 的 位 。 接 下 来 将 简要 介绍 这 两 种 FEC 编码 
f13]。 

1， 块 编码 

块 编 码 [2] 取 大 位 作为 输入 , 并 添加 上 r=n—-k fi FEC 数据 , 共有 nn 位 长 的 串 .这 种 编码 称 为 (n， 
kb) 码 。 块 编码 的 有 线性 和 循环 两 种 类 型 。 所 有 的 错误 修复 编码 都 是 通过 在 有 效 源 串 之 间 加 入 间隔 
来 起 作用 的 。 这 种 间隔 使 用 海 明 距 离 (Hamming distance) 来 测量 ， 定 义 为 任意 的 编码 串 之 间 的 
最 小 位 数 ， 这 些 串 都 需要 改变 为 与 第 二 个 串 一 样 。 

要 检测 + 个 错误 ， 海 明 距 离 至 少 要 为 r， 否 则 ， 损 坏 的 串 可 能 看 上 去 又 变 成 有 效 的 了 。 但 是 
这 还 不 足以 修正 7 个 错误 ， 因 为 有 效 编码 之 间 并 没有 足够 的 距离 来 选取 更 好 的 修正 。 要 修正 7 个 
错误 ， 海 明 距 离 至 少 必须 为 2r[14，15]。 线 性 编码 计算 比较 简单 ， 但 是 比 循 环 编码 的 开销 更 高 。 

循环 编码 是 通过 最 大 次 数 与 源 位 数量 相等 的 母 多 项 式 来 建立 的 。 源 位 就 是 多 项 式 的 系数 ， 元 
余 通 过 与 男 一 个 多 项 式 相 乘 来 生成 。 由 于 求 模 运算 实际 上 是 平移 了 多 项 式 系数 ， 所 以 这 种 编码 是 
循环 的 。 l 

最 常用 的 一 种 循环 编码 方法 是 Bose-Chaudhuri-Hocquenghem (BCH) 编码 ， 因 为 它 能 够 应 用 
FE EER. BCH 的 母 多 项 式 通 过 GF (2) (二 元 Galois Field) 给 出 ， 它 是 以 o 为 基 的 多 项 
式 中 次 数 最 小 的 一 个 , 这 里 的 wx 是 字段 的 一 个 素 元 (如 2), 而 i 的 取 值 是 1~2 倍 的 希望 修正 的 位 数 。 

由 于 使 用 了 Galois FE, 因此 BCH 编码 能 够 使 用 整数 运算 快速 地 编码 /解码 。H.261 和 H.263 
使 用 BCH 为 每 493 个 源 位 留 出 18 SBE. RAIA, 18 个 校 验 位 最 多 只 能 修正 源 中 的 两 个 错 
误 。 因 此 ， 包 仍然 容易 受到 长 发 位 错误 和 单 包 错误 的 影响 。 

可 以 应 用 于 多 包 的 一 个 重要 的 BCH 编码 子 类 是 Reed-Solomon (RS) 编码 。RS 编码 使 用 了 
GF (2") 上 的 一 个 生成 多 项 式 ， 其 中 m 为 以 位 为 单位 的 包 的 大 小 。RS 编码 取 一 组 大 个 源 包 ， 并 
输出 n 个 包 ， 其 中 有 r=n-k 个 元 余 包 。 如 果 我 们 知道 疑 符 点 ， 那 么 最 多 可 以 从 n 个 编码 后 的 包 中 
恢复 7 个 丢失 的 包 。 否 则 ， 就 像 所 有 的 FEC 编码 一 样 ， 恢 复 只 能 应 用 于 一 半数 量 的 包 (位 的 数量 
也 是 类 似 的 )， 因 为 在 这 种 情况 下 ， 错 误 点 检测 是 必须 的 。 

在 RS 编码 中 ， 只 有 | 引 | 个 包 可 以 恢复 。 幸 运 的 是 ， 在 包 FEC 方案 中 ， 包 在 物理 层 上 有 一 些 


头 ， 这 些 头 包含 一 个 序列 号 和 CRC 编码 。 在 大 多 数 情况 下 ， 有 错误 的 包 会 被 丢 诫 ， 并 且 我 们 能 
够 根据 丢失 的 序列 号 得 知 丢失 的 包 的 位 置 。RS 编码 在 存储 媒介 《比如 CD-ROM) 和 可 能 会 发 生 
狂 发 错误 的 网 络 多 媒体 传输 中 使 用 。 

使 用 包 交 错 也 能 够 增加 对 狂 发 性 包 丢 失 的 恢复 能 力 。 如 图 17-9 Pa, Wh AT, BATA kN 
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视频 包 生 成 RS 编码 。 然 后 ， 按 照 列 序 传输 ， 这 样 ，h 
行 中 每 行 的 第 一 个 包 将 首先 传输 ， 接 下 来 传输 第 二 个 
包 ， 依 此 类 推 。 如 果 出 现 薄 发 的 包 丢 失 ， 由 于 有 足够 的 
宛 余 数据 ， 我 们 可 以 忍受 多 于 个 的 疑 符 。 这 种 方案 会 
引入 额外 的 延迟 ， 但 是 不 会 增加 计算 开销 。 

RS 编码 可 用 于 在 基于 包 的 网 络 上 传输 。 如 果 出 现 
狂 发 包 技 失 、 包 交错 和 包 序 列 化 ,我 们 就 有 可 能 检测 到 < n 
接收 错误 的 包 ， 并 使 用 可 用 的 元 余 来 恢复 它们 。 如 果 视 17-9 元 余 编 码 的 交错 方案 。 包 或 者 位 
频 具有 可 扩展 性 ， 在 基础 层 应 用 充分 的 FEC 保护 可 以 按 行 存储 ， 宛 余 在 最 后 列 中 生成 。 发 
更 好 地 利用 分 配 的 带宽 , 包含 了 将 视频 解码 为 最 小 QoS 送 按 列 进行 ， 从 上 到 下 ， 从 左 到 右 
所 需 的 运动 向 量 和 所 有 的 头 信 息 。 可 以 给 增强 层 比 较 
少 的 保护 或 者 根本 不 保护 ， 只 依赖 于 编码 的 恢复 和 错误 隐藏 能 力 。 任 何 一 种 方法 都 可 以 获得 最 
小 的 QoS。 

块 编码 的 一 个 缺点 就 是 , 它们 不 能 有 选择 性 地 应 用 于 特定 的 位 。 如果 它 们 在 同一 个 传输 包 (〈 甚 
至 是 同一 组 包 ) 中 发 送 ， 就 难以 通过 更 多 的 〈 例 如， 比 DCT 系数 更 多 的 ) 元 余 位 保护 高 层 协议 
层 的 头 。 另 一 方面 ， 卷 积 编码 就 能 到 达 这 种 要 求 ， 这 使 得 它们 对 于 使 用 非 对 等 保护 比较 有 利 的 数 
据 《〈 比 如 视频 ) 更 加 有 效 。 虽 然 卷 积 编码 对 狂 发 包 丢 失 不 那么 有 效 ， 但 是 对 于 无 线 通道 来 说 ， 狂 
发 包 丢 失 并 不 占 主 导 地 位 〈 并 且 在 大 多 数 传播 模型 中 都 不 出 现 )。 

2， 卷 积 编码 

卷 积 FEC 编码 也 定义 在 生成 多 项 式 上 [13]. 它 们 通过 将 个 消息 位 移入 一 个 编码 器 计算 得 到 ， 
编码 器 会 将 它们 与 生成 多 项 式 进行 卷 积 来 产生 n 个 位 。 这 种 编码 的 码 率 被 定义 为 Ł 。 由 于 编码 是 
使 用 存储 〈 移 位 ) 寄存 器 得 到 的 ， 所 以 移 位 是 必须 的 。 其 中 可 能 会 有 大 个 以 上 的 寄存 器 ， 在 这 种 
情况 下 ， 过 去 的 位 也 会 影响 元 余 码 的 生成 。 

在 产生 nn 个 位 以 后 ， 某 些 匈 余 位 可 以 被 删除 以 减少 的 大 小 ， 并 提高 编码 的 码 率 。 这 种 FEC 
方案 称 为 码 率 兼容 删除 型 卷 积 (RCPC) 码 。 码 率 越 高 ， 位 保护 就 越 低 ， 不 过 码 率 的 开销 也 会 变 
低 。 具 有 软 决 断 的 Viterbi 算法 对 编码 后 的 位 流 进行 解码 ， 尽 管 涡轮 编码 更 为 流行 。 

因为 狂 发 包 丢 失 发 生 的 可 能 性 不 大 ， 所 以 RCPC 编码 在 无 线 〈 部 分 ) 网 络 上 比 块 编码 更 有 优 
势 。RCPC 删除 在 校 验 信息 生成 后 完成 。 已 知 对 视频 质量 比较 重要 的 源 位 ， 我 们 可 以 应 用 不 同 的 
删除 量 ， 因 此 错误 保护 的 程度 也 有 所 不 同 。 对 无 线 模型 的 研究 和 模拟 说 明 ， 如 果 分 配 的 码 率 相同 ， 
按照 位 的 重要 性 信息 来 使 用 RCPC 应 用 不 等 量 的 保护 会 比 使 用 RS 编码 进行 视频 保护 得 到 的 视频 
质量 更 好 。 ， 

为 简单 起 见 ， 应 该 对 视频 协议 中 的 图 像 层 进 行 最 高 级 别 的 保护 ， 对 更 为 本 地 化 的 宏 块 层 进行 
级 别 低 一 些 的 保护 ， 而 块 层 中 的 DCT 系数 只 需 很 少 的 保护 或 者 几乎 不 用 保护 。 对 于 可 扩展 的 视 
频 也 可 以 使 用 这 种 方法 进行 扩展 。 

cdma2000 标准 对 任意 数据 类 型 都 使 用 卷 积 编码 来 保护 传输 的 位 , 只 是 在 不 同 的 传输 码 率 下 的 
编码 率 有 所 不 同 。 如 果 未 来 的 3G 网 络 加 入 数据 类 型 相关 的 规定 ， 并 能 够 识别 出 传输 所 选择 的 标 
H, 它们 就 能 够 自 适 应 地 应 用 视频 流 的 传输 编码 ， 并 提供 足够 的 适合 当前 通道 状况 和 QoS 要 求 的 
不 等 量 见 余 。 


17.3.5 ”无 线 交 互 式 多 媒体 的 趋势 
UMTS 论坛 预测 ， 到 2010 年 ， 全 世界 无 线 多 媒体 通信 的 用 户 数 量 将 会 超过 10 亿 ， 这 种 通信 
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量 会 为 运营 商 带 来 上 千 亿 美元 的 价值 。 另 外 ，3G 将 会 加 速 电 信 、 计 算 机 、 多 媒体 内 容 和 内 容 提 
供 商 的 融合 ， 以 支持 功能 更 强大 的 服务 。 
近年 来 ， 全 球 大 部 分 蜂窝 式 网 络 都 提供 了 2.5G 服务 。 最 初 的 3G 服务 也 开始 在 全 球 范围 内 提 


供 ， 很 多 国家 都 已 经 有 商用 的 cdma200 1X 服务 。 
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当前 与 将 来 的 一 些 3G 应 用 有 : 
© 多 媒体 消息 服务 (MMS )， 一 种 新 的 消息 协议 ， 结 合 传统 的 文本 消息 ， 为 移动 电话 提供 集 
成 了 音频 、 图 像 和 其 他 多 媒体 内 容 的 多 媒体 数据 。 

。 移动 视 频 电话 、VolP 和 语音 驱动 的 网 络 接 入 。 

。 拥 有 音频 流 和 视频 流 服务 的 移动 因特网 接 入 。 

。 移动 Intranet/Extranet 接 入 ， 提 供与 公司 LAN、 上 处 拟 个 人 网 络 (VPN) 和 因特网 的 安全 接 入 。 

。 基 于 移动 门户 ， 提 供 随时 随地 访问 个 性 化 内 容 的 定制 信息 服务 。 

© 移动 多 人 在 线 游戏 。 

。 兽 适 计算 [61， 比 如 汽车 的 远程 信息 服务 ， 其中， 装配 有 GPS 和 语音 识别 的 汽车 导航 系统 能 

够 与 驾驶 员 交 互 来 避免 开车 的 时 候 阅读 地 图 。 

一 直 以 来 ， 工 业界 都 在 关注 下 、 娱 乐 和 电信 的 融合 。 电 信和 领域 的 一 个 主要 分 支 就 致力 于 手持 
无 线 设 备 一 一 移动 站 (手机 )。 同 时 ， 计 算 机 界 也 在 关注 着 开发 至 少 能 够 为 忙碌 的 人 们 完成 一 些 必 
须 的 重要 任务 的 手持 计算 机 。 手 持 计算 机 可 分 为 Pocket PCH PDA. 

Pocket PC 通常 比较 大 ， 装 有 键盘 ， 能 够 支持 桌面 PC 的 大 部 分 功能 和 程序 。PDA 完成 的 任务 
比较 简单 ， 比 如 存储 备忘录 和 电话 号 码 。PDA 通常 使 用 某 种 手写 识别 方式 进行 输入 ， 虽 然 一 些 
PDA 也 有 键盘 。PDA 制造 商 力争 支持 更 多 的 类 似 PC 的 功能 ， 同 时 提供 无 线 包 服务 (包括 下 通 
话 )， 这 样 ，PDA 既 能 够 用 于 无 线 因 特 网 连接 ， 又 具有 电话 的 功能 。 

和 所 有 的 可 移植 计算 机 一 样 ， 人 机 交互 (HCD 的 问题 比 起 桌面 计算 机 更 为 明显 。 由 于 没有 
足够 的 放置 键盘 的 空间 ， 大 多 数 人 认为 语音 识别 将 代替 命令 行 输入 。 

大 多 数 新 的 PDA 产品 支持 图 像 和 视频 捕获 、MP3 播放 、e-mail 和 无 线 协议 〈 如 802.11b 和 蓝 
FO) 当 连 接 到 GPRS 和 PCS 网 络 〈 例 如 Handspring Treo) 的 时 候 ， 一 些 PDA 还 可 以 作为 手机 使 
用 。 它 们 拥有 彩色 屏幕 ， 并 能 够 支持 网 页 浏览 和 多 媒体 e-mail 消息 。 一 些 具 有 蓝牙 功能 的 PDA 
通过 兼容 蓝牙 的 手机 来 接 入 移动 网 络 。 然 而 ， 随 着 手机 的 功能 越 来 越 强大 ，PDA 加 入 802.11b 接 
口 卡 ， 蓝 牙 的 发 展 空间 逐渐 被 压缩 。 

当 PDA 制造 商 放眼 未 来 ， 他 们 希望 不 仅仅 在 无 线 网 络 中 支持 语音 通信 ， 还 希望 支持 多 媒体 
(比如 视频 通信 )。 一 些 PDA 整合 了 具有 闪光 灯 和 变焦 功能 的 高 级 数码 相机 (例如 Sony 的 CLIE). 
视频 的 编码 可 以 使 用 MPEG-4 或 者 H.263 来 完成 ，PDA 也 能 够 支持 多 种 播放 格式 。 

手机 制造 商 则 尝试 着 加 入 更 多 类 似 计算 机 的 功能 ， 包 括 PDA 所 支持 的 基本 任务 、 网 页 浏览 、 
游戏 、 图 像 和 视频 捕获 、e-mail 附件 、 流 视频 、 视 频 会 议 等 。 交 互 式 多 媒体 的 需求 稳步 增长 ， 特 
别 是 在 图 像 和 视频 通信 方面 。 大 多 数 手机 制造 商 和 移动 服务 提供 商 已 经 能 以 e-mail 附件 形式 、 视 
频 流 ， 甚 至 视频 会 议 的 形式 支持 一 些 图 像 或 视频 通信 。 和 短 消息 服务 (SMS) 类 似 ， 新 的 消息 协 
议 多 媒体 消息 服务 (MMS) 已 经 得 到 工业 界 的 支持 ， 作 为 带宽 限制 下 的 一 种 过 渡 解 决 方案 。 新 的 
手机 已 经 有 了 彩色 的 显示 屏 和 内 置 的 数码 摄像 头 。 大 多 数 手机 使 用 集成 的 CMOS 传感器 ， 有 的 手 
机 甚至 拥有 两 个 。 到 2004 年 ， 移 动 电话 上 的 摄像 头 数量 将 会 超过 世界 范围 内 销售 出 的 数码 相机 数量 。 

近年 来 ， 手 机 已 经 能 够 支持 网 页 浏览 和 e-mail 功能 ， 但 是 利用 包 服 务 、 蓝 牙 和 MMS， 它 们 
能 够 支持 各 种 格式 的 视频 流 和 MP3 播放 。 一 些 手机 甚至 包含 使 用 手写 识别 和 指点 杆 的 触摸 屏 ， 就 
像 大 多 数 PDA 一 样 。 另 外 的 一 些 手机 已 经 小 到 可 以 穿戴 起 来 来 代替 手表 了 。 
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17.4 进一步 探索 


Tanenbaumf14] 对 无 线 网 络 进行 了 比较 全 面 的 论述 ， 而 Weself2] 对 无 线 通信 网 络 进行 了 介绍 。 


Viterbi[5] 对 扩 频 和 CDMA 的 基础 进行 了 严谨 的 分 析 。Wang 等 [16] 对 视频 通信 的 错误 控制 进行 了 
深入 讨论 。 


这 一 章 在 网 站 上 的 Further Exploration 部 分 包括 关于 无 线 网 络 的 网 上 资源 : 
。 关 于 无 线 网 络 和 移动 电话 技术 的 一 个 调查 。 

。 关 于 GSM 的 报告 。 

。GPRS 入 门 。 

相关 的 一 些 链接 有 : 

。NTIA 一 一 频谱 管理 方面 的 信息 。 

。CDMA 开发 组 、IMT-2000、UMTS、cdma2000 RTT. 3GPP 等 的 主页 。 
。 无线 LAN 标准 。 

我 们 也 给 出 了 一 些 PDA 和 现代 移动 电话 的 图 片 。 


17.5 练习 


1. 


2. 


在 TDMA 系统 的 实现 (比如 GSM 和 IS-136) 中 ， 以 及 基于 CDMA 的 低 一 级 的 网 络 〈 比 如 
IS-95) 中, 仍然 使 用 把 分 配 的 载波 频谱 划分 为 更 小 的 通道 的 FDMA 技术 ,为 什么 这 是 必要 的 ? 
讨论 GSM/GPRS 和 WCDMA 实现 可 变 码 率 传输 的 方法 的 区 别 。 


3. 我 们 在 图 17-1 中 看 到 了 蜂窝 网 络 的 几何 布局 。 图 中 假定 蜂窝 是 六 边 形 ， 平 面 是 对 称 的 〈 即 在 


an 


N 


oo 


不 同 蜂窝 上 分 割 频谱 的 方案 是 一 致 的 )。 而 且 ， 重 用 因子 K=7。 根 据 蜂 窝 的 大 小 和 无 线 电 的 干 
扰 ， 重 用 因子 可 能 不 一 样 。 如 果 依 然 采 用 六 边 形 蜂窝 ， 所 有 可 能 的 重用 因子 都 能 得 到 一 个 对 称 
的 平面 吗 ? 哪些 能 够 得 到 ? 你 能 推导 出 一 个 关于 可 能 的 重用 因子 的 公式 吗 ? 


. IS-95 的 扩展 增益 是 什么 ? 假定 所 有 的 用 户 都 希望 用 最 大 的 码 率 传输 ， WCDMA 的 UTRA FDD 


模式 的 扩展 增益 是 什么 ?扩展 增益 之 间 的 不 同 会 带 来 什么 影响 ? 


， 当 一 个 便携 式 电 话 用 户 穿越 蜂窝 的 边界 时 ， 必 须 由 一 个 蜂窝 转交 给 另 一 个 蜂窝 。 硬 不 当 的 ) 


转交 会 造成 通话 中 断 。 
(a) CDMA ( 直 频 ) tk FDMA RASA (FH) 提供 的 转交 性 能 更 好 ， 为 什么 ? 
Cb) 对 转交 技术 提出 一 种 改进 使 得 它 可 以 更 软 一 些 。 


， 在 CDMA 蜂窝 中 ， 当 一 个 CDMA 的 移动 站 穿越 蜂窝 的 边界 时 候 ， 会 发 生 软 转交 。 而 且 ， 上 蜂 


窝 可 以 被 划分 为 一 些 扇 区 ， 当 移动 站 在 扇 区 之 间 移 动 时 ， 会 发 生 更 软 的 转交 。 

(a) 论述 为 什么 要 提供 更 软 的 转交 。 

Cb) 至 少 举 出 两 种 转交 之 间 另 外 的 一 个 不 同 之 处 。 

提示 : Æ CDMA 系统 的 转交 过 程 中 ， 移 动 站 可 以 用 比 蜂 窝 内 更 低 的 能 量 来 进行 传输 。 


.本 章 讨论 的 大 多 数 通道 分 配方 案 都 是 固定 一致 通道 分 配 。 可 以 设计 一 个 动态 通道 分 配方 


案 来 改进 蜂窝 式 网 络 的 性 能 。 请 提出 一 种 这 样 的 动态 通道 分 配方 案 。 


.2.5G 技术 是 为 包 交 换 服务 而 设计 的 。 它 提供 了 按 需 连接 而 不 需要 预先 建立 一 个 电路 。 这 对 于 


零星 的 数据 锤 发 是 比较 有 优势 的 。 

(a) 为 TDMA BRA (kein GPRS) 提出 一 种 实现 多 访问 控制 的 方法 。 

Cb) 电路 对 于 长 的 数据 更 有 效 。 扩 展 你 提出 的 方法 ， 使 得 通道 能 通过 一 个 只 对 第 一 个 传输 包 
的 竞争 过 程 。 

提示 : 为 你 的 方案 加 上 限制 。 
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9. H.263+ 和 MPEG-4 使 用 RVLC， 它 们 的 流 的 解码 既 可 以 是 从 同步 标记 向 前 ， 也 可 以 向 后 。 
RVLC 提高 了 使 用 规则 炉 编 码 进行 编码 的 码 率 。 
(a) 为 什么 这 对 无 线 通 道上 的 传输 很 有 好 处 ? 
(b) ‘ELE FEC 更 有 效 的 必要 条 件 是 什么 ? 

10. 为 什么 RVLC 通常 只 用 于 运动 向 量 ? 如 果 你 希望 减 小 码 率 的 影响 ， 需 要 做 出 怎样 的 改进 ? 
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第 18 章 ”数字 图 书馆 中 基于 内 容 的 检索 


18.1 如何 检 索 图 像 


图 18-1 中 显示 的 是 名 画 “享乐 的 花园 ”(The Garden of Delights) 的 一 部 分 , 它 由 Hieronymus 
Bosch (1453-1516) 创作 ， 现 收藏 于 西班牙 马德里 普拉多 美术 馆 。 这 是 一 幅 著 名 的 绘画 作品 ， 但 
我 们 也 很 可 能 在 理解 作者 的 创作 意图 方面 遇 到 麻烦 。 因 此 ， 如 果 我 们 希望 进行 图 像 的 自动 检索 ， 
我 们 就 不 难 理解 用 机 器 来 提取 蕴含 于 图 像 中 的 语义 将 是 一 个 更 为 艰巨 的 挑战 。 对 于 一 幅 图 像 来 
说 ， 合 适 的 注解 当然 应 该 包含 “人 物 ” 这 个 描述 符 。 另 一 方面 ， 这 幅 图 像 是 否 会 被 网 络 上 用 于 过 
滤 含 有 “裸体 ”信息 的 系统 一 “Net nanny”( 网 络 保姆 ) WERE CBS) ? 


oe” 2 | 





i Cad 
图 18-1 ”我 们 如 何 准确 描述 一 幅 图 像 的 内 容 〈 感 谢 西 班 牙 马德里 普拉多 美术 馆 ) 


与 基于 文本 的 检索 相 比 ， 我 们 都 知道 绝 大 多 数 主要 的 网 络 浏览 器 都 有 一 个 用 于 在 网 络 上 进行 
多 媒体 内 容 检索 的 按钮 。 就 Bosch 的 画作 而 言 ， 利 用 一 个 基于 文本 的 检索 就 有 可 能 做 得 很 好 ， 但 
是 我 们 不 会 总 是 遇 到 这 种 特殊 的 图 像 。 我 们 还 会 对 那 种 更 具有 一 般 性 的 检索 感 兴趣 ， 比 如 说 检索 
那些 具有 深蓝 色 的 天 空 和 桔 黄色 的 落日 的 场景 。 通 过 预先 计算 一 些 存储 在 数据 库 中 的 关于 图 像 的 
基本 统计 信息 ， 我 们 就 能 够 检索 到 具有 如 上 特征 的 简单 场景。 

起 初 ， 数 字 图 书馆 中 的 检索 的 思想 源 于 传统 信息 检索 的 一 些 原则 例如， 参见 参考 文献 [2])。 
这 些 查询 的 思路 得 以 延续 下 去 。 例 如 ， 在 [3] 中 ， 我 们 可 以 使 用 基本 的 信息 检索 技术 把 图 像 分 为 室 
内 和 室外 两 大 类 。 在 一 个 图 像 及 其 说 明 的 训练 集 上 ， 把 每 个 单词 在 说 明文 档 里 面 出 现 的 次 数 除 以 
这 些 单词 在 一 个 大 类 的 所 有 文档 里 面 出 现 的 次 数 。 另 一 个 类 似 的 度量 方式 则 用 于 图 像 内 容 片 段 的 
统计 性 描述 。 这 两 种 基于 信息 检索 的 度量 方式 常 结合 起 来 成 为 更 加 有 效 的 分 类 机 制 。 

但 是 ， 大 多 数 多 媒体 检索 方案 都 倾向 于 基于 多 媒体 自身 的 一 些 有 帮助 的 内 容 ， 而 不 是 依赖 于 
那些 附加 在 多 媒体 上 的 额外 文本 信息 。 最 近 ， 人 们 再 次 关注 图 像 中 所 蕴涵 的 语义 内 容 这 个 比较 深 
入 的 问题 ， 并 重申 要 利用 附带 的 文本 。 如 果 数 据 不 仅 包含 从 图 像 中 的 物体 所 提取 出 的 统计 属性 ， 
而 且 包 含 与 这 些 图 像 相关 联 的 文本 ， 那 么 任何 一 种 形态 〈 不 管 是 文本 还 是 图 像 ) 都 能 提供 另 一 种 
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形态 所 遗漏 的 一 些 语义 内 容 。 例 如 ， 一 幅 红 玫瑰 的 图 像 一 般 来 说 不 会 具有 “红色 ”这 个 关键 字 ， 
尽管 我 们 通常 认为 它 需 要 我 们 手动 添加 上 去 。 因 此 ， 图 像 属性 和 与 之 相关 联 的 一 些 描述 字 将 彼此 
消除 双方 所 存在 的 二 义 性 〈 参 见 [4] )。 

在 本 章 中 ， 我 们 只 关注 那些 使 用 图 像 的 特征 来 从 数据 库 中 或 者 网 络 上 检索 图 像 的 一 些 标准 化 
程度 更 高 的 系统 。 常 用 的 图 像 特 征 一 般 都 是 一 些 统计 性 的 度量 ， 比 如 图 像 的 颜色 直方 图 。 考 察 一 
幅 彩 色 的 图 像 ， 比 如 一 个 圣诞 老人 和 他 的 雪 权 。 我 们 使 用 鲜红 色 、 祸 色 以 及 肉色 这 些 颜色 特征 的 
组 合 就 足以 作为 图 像 特征 ， 从 图 像 数据 库 〈 比 如 说 关于 办 公 室 的 圣诞 派对 ) 中 检索 出 相似 的 图 徐 。 

回忆 一 下 ， 颜 色 直 方 图 通常 是 一 个 统计 每 个 像素 的 红 、 绿 、 蓝 三 色 值 的 三 维 数组 。 这 种 结构 
最 大 的 好 处 就 在 于 它 不 必 关心 图 像 的 方向 (因为 我 们 统计 的 是 像 泽 的 信 ， 而 不 是 它们 的 方向 )， 
也 不 影响 到 对 象 的 遮挡 。 一 篇 关于 该 课题 的 学 术 论 文 5] 引 起 了 人 们 对 这 种 所 请 图 像 “ 低 层次 ” 特 
征 的 关注 。 

其 他 常用 于 描述 图 像 的 特征 还 有 颜色 布局 (color layout)， 即 用 类 似 于 在 棋盘 的 哪些 格 面 蓝 色 
的 天 空 ， 哪 些 格 画 橘红 的 落日 来 描述 图 像 的 草图 。 另 一 种 常用 的 特征 就 是 纹理 〈texture)， 即 有 一 
些 典 型 的 描述 方式 是 基于 边缘 图 像 ， 通 过 对 图 像 进行 偏 微分 产生 边缘 图 像 ， 并 且 同 时 利用 图 像 的 
空间 闭合 性 以 及 朝向 来 区 分 边缘 。 该 处 理 方 式 的 一 种 实现 使 用 的 就 是 边缘 特征 的 直方 图 。 同 时 ， 
纹理 布局 〈texture layout) 也 可 以 用 于 图 像 特 征 。 基 于 这 些 特 征 所 设计 的 搜索 引擎 就 称 为 基于 内 
È (content-based) 的 ， 即 搜索 是 通过 建立 在 图 像 的 统计 性 内 容 的 基础 上 的 图 像 相似 度 度量 来 进 
行 的 。 

通常 ， 我 们 希望 检索 出 和 我 们 当前 所 关心 的 图 像 〈 比 如 前 面 提 到 的 圣诞 老人 〉 相似 的 图 像 。 
一 个 更 加 面向 产业 的 应 用 有 可 能 会 用 于 检索 邮票 中 的 某 一 个 特定 的 图 案 。 和 图 像 数 据 库 检 索 密 切 
相关 的 行业 或 领域 包括 艺术 廊 、 博 物 馆 、 时 装 、 室 内 设计 、 和 遥感 、 地 理 信息 系统 、 气 象 学 、 商 标 
数据 库 、 犯 罪 学 ， 以 及 许多 其 他 的 领域 。 

一 种 更 加 困难 的 搜索 是 从 图 像 中 检索 出 某 一 对 象 《objecY， 我 们 可 以 称 之 为 “基于 对 象 的 查 
询 ”(query-by-object) 模型 。 这 涉及 更 加 完善 的 图 像 内 容 的 编目 ， 将 是 一 个 很 困难 的 目标 。 通常 ， 
用 户 的 检索 都 是 基于 一 种 所 谓 的 关联 式 检 索 (search by association)， 即 在 第 一 次 检索 返回 结果 之 
后 ， 用 户 可 以 根据 相似 性 对 查询 结果 进行 逐步 求 精 。 对 于 我 们 期 望 得 到 的 图 片 中 的 那些 具有 代表 
性 的 图 像 ， 目 姑 检 索 (catalog search) 将 返回 请 求 集中 的 一 个 元 素 ， 比 如 商标 数据 库 中 的 一 个 或 
几 个 商标 。 另 外 ， 查 询 也 可 以 基于 一 幅 特 定 的 图 像 ， 如 一 幅 艺 术 作品 的 一 小 部 分 ， 这 就 是 目标 检 
索 (target search). 

在 理解 和 评估 现 有 的 检索 系统 时 ， 我 们 还 要 考量 的 一 个 指标 就 是 ， 这 些 系统 的 搜索 范围 是 比 
较 窑 的 (比如 商标 数据 库 )， 还 是 足够 宽 和 的 (比如 商业 图 片 集 )。 

对 于 任何 系统 ， 我 们 都 面临 着 那些 由 在 替代 人 类 劳动 的 机 器 系统 的 基本 性 质 。 参 考 文献 [6] 
的 作者 简洁 地 总 结 了 我 们 面临 的 一 些 主要 的 障碍 ， 他 们 称 之 为 感官 差距 (sensory gap) 和 语义 差 
3B (semantic gap). 

感官 差距 是 指 现实 世界 中 的 对 象 与 计算 机 中 记录 的 该 对 象 的 信息 之 闻 的 差异 。 

语义 差距 是 指 从 视觉 数据 中 提取 的 信息 以 及 在 给 定 情 况 下 用 户 对 相同 数据 的 理解 之 间 的 差异 。 

虽然 图 像 的 特征 记录 了 它 的 细节 ， 但 图 像 本 身 并 不 是 这 样 表述 的 。 尽 管 我 们 能 够 用 语言 描述 
图 像 所 橡 涵 的 信息 ， 但 是 ， 要 让 机 器 来 提取 图 像 的 语义 仍然 是 非常 困难 的 。 


18.2 C-BIRD: 一 个 实例 研究 
现在 ， 我 们 来 分 析 图 像 查询 过 程 的 一 些 细节 问题 。 为 了 使 我 们 的 讨论 更 加 具体 ， 我 们 使 用 由 
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本 书 作者 开发 的 一 个 图 像 数 据 库 搜索 引擎 来 说 明 我 们 的 讨论 (参见 [7])。 这 个 系统 叫做 数字 图 书 
馆 中 基于 内 容 的 图 像 检索 (Content-Based Image Retrival from Digital library, 简称 C-BIRD), CBIR 
是 基于 内 容 的 图 像 检索 的 首 字母 缩写 词 。( 在 本 章 的 网 站 上 的 Further Explorer 中 给 出 了 这 个 搜索 
引擎 的 一 个 URL. ) 


18.2.1 C-BIRD 的 GUI 


图 18-2 展示 的 是 C-BIRD 系统 的 GUI。 利用 该 系统 可 以 浏览 在 线 图 像 数 据 库 ， 也 可 以 以 某 种 
方式 检索 ， 这 些 方式 包括 文本 注解 、 颜 色 直方 图 、 光 源 恒 常 性 颜色 直方 图 、 颜 色 密 度 、 颜 色 布局 、 
纹理 布局 以 及 基于 模型 的 查找 。 大 多 数 的 图 像 都 是 视频 的 关键 帧 ， 并 且 在 这 个 系统 中 还 集成 了 一 
个 视频 播放 器 。 
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Aj 18-2 C-BIRD 图 像 查找 的 GUI 
下 面 我 们 逐一 介绍 这 些 检索 方式 。 其 他 的 系统 (我 们 将 在 18.3 节 中 讨论 ) 也 具有 相似 的 特性 。 
18.2.2 颜色 直方 图 


在 C-BIRD 系统 中 ， 数 据 库 中 的 图 像 的 特性 都 是 预先 计算 好 的 。 在 图 像 数 据 库 检索 中 ， 最 常 
用 的 特性 是 颜色 直方 图 [5]， 这 是 图 像 的 一 种 全 局 性 的 特性 ， 也 就 是 说 不 是 将 图 像 分 成 一 块 一 块 地 
处 理 ， 而 是 平等 对 待 图 像 的 每 个 区 域 的 一 种 处 理 方式 。 

颜色 直方 图 统计 每 个 像素 的 红 、 绿 、 蓝 三 色 值 。 下 面 我 们 用 伪 代 码 举 个 例子 ， 对 一 幅 用 8 位 
来 表示 R、G、B 值 的 图 片 ， 可 以 得 到 一 个 有 256 个 单元 的 直方 图 。 


int hist[256] [256] [256]; // reset to 0 
//image is an appropriate struct 
//with byte fields red,green, blue 


for i=0..(MAX_yY-1) 

for j=0..(MAX_X-1) 
{ 
R = image[i] [j].red; 
G = image[i] [j] .green; 
B = image[i] [j].blue; 
hist [R] [G] [B]++; 
} 


513 


514 
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通常 ， 占 用 这 么 多 单元 的 直方 图 我 们 一 般 是 不 会 采纳 的 。 一 方面 因为 较 少 的 单元 可 以 消除 具 
有 相似 性 的 不 同 图 像 之 间 的 差异 ， 另 一 方面 我 们 也 希望 节省 存储 空间 。 

图 像 查找 的 过 程 就 是 将 样本 图 像 的 特征 向 量 〈 这 里 就 是 颜色 直方 图 ) 与 数据 库 中 的 每 个 图 像 
《或 者 说 是 部 分 图 像 ) 的 特征 向 量 进行 匹配 的 过 程 。 

C-BIRD 在 预 处 理 阶段 计算 好 每 个 目标 图 像 的 颜色 直方 图 ， 然 后 在 用 户 检索 图 像 的 时 候 引用 
它们 。 直 方 图 定义 得 较为 粗略 ， 我 们 为 每 个 单元 分 配 8 位 ， 其 中 3 位 用 于 红色 ，3 位 用 于 绿色 ， 
剩 下 的 2 位 用 于 蓝 色 。 

举 个 例子 ， 图 18-3 展示 的 是 用 户 选择 了 一 幅 图 像 ， 图 像 中 有 红色 的 花 打 。 从 包含 5000 幅 图 
像 的 数据 库 中 检索 到 60 幅 匹配 的 图 像 .大 多 数 CBIR 系统 要 么 返回 与 查询 要 求 最 相似 的 几 个 结果 ， 
要 么 返回 达到 设 定 的 相似 度 阔 值 的 一 组 对 象 。C-BIRD 使 用 的 是 后 一 种 方法 ， 所 以 可 能 出 现 查询 
结果 为 0 的 情况 。 
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图 18-3 颜色 直方 图 的 查找 结果 (彩色 插页 中 也 有 此 图 ， 一 些小 图 片 来 自 Corel Gallery, Corel 拥有 其 版 权 ) 


怎样 进行 匹配 取决 于 我 们 采用 哪 种 相似 性 度量 。 一 种 标准 的 颜色 直方 图 度量 方式 叫做 相交 直 
方 图 (histogram intersection)。 首 先 ， 我 们 计算 好 数据 库 中 每 个 图 像 i 的 颜色 直方 图 H,。 我 们 通常 
将 颜色 直方 图 看 做 一 个 三 维 的 数组 , 而 机 器 把 它 看 做 一 个 很 长 的 向 量 , 也 就 是 这 种 度量 常用 的 “ 特 
征 向 量 ”。 

接 下 来 ， 将 这 些 颜 色 直 方 图 归 一 化 (normalized)， 使 得 其 和 (此 时 为 double KH) 为 1。 
归 一 化 的 过 程 非常 有 趣 ， 它 有 效 地 消除 了 图 像 的 大 小 信息 。 原 因 如 下 ， 如 果 一 幅 图 像 的 分 辨 率 是 
640x480， 那 么 颜色 直方 图 的 所 有 项 的 总 和 将 达到 307 200。 但 是 ， 如 果 一 幅 图 像 的 分 辩 率 是 
320x240， 则 颜色 直方 图 的 所 有 项 的 总 和 就 只 有 76 800。 除 以 所 有 像素 的 总 和 就 可 以 消除 这 种 区 
别 。 实 际 上 ， 归 一 化 的 颜色 直方 图 可 以 视 为 概率 分 布 函 数 (probability density functions, pdfs )。 颜 
色 直 方 图 将 存储 在 数据 库 中 。 

假设 现在 我 们 已 经 选 定 了 一 幅 样本 图 像 一 -这 幅 新 图 像 将 用 于 和 数据 库 中 所 有 的 可 能 目标 
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进行 匹配 。 它 的 颜色 直方 图 再 , HAE PAA ee A A, 进行 求 交 运 算 ， 其 公式 
如 下 [5]: 


intersection = Smin(H} ,H;) (18.1) 
jal 
公式 中 的 j 代 表 颜 色 直 方 图 的 第 j 个 单元 ,而 每 个 颜色 直方 图 有 n 个 单元 。 计 算 结 果 越 接近 1， 图 
像 匹配 得 越 好 。 这 种 计算 的 速度 是 非常 快 的 ， 但 是 我 们 必须 注意 到 这 个 求 交 的 值 对 颜色 的 量化 程 
度 是 非常 敏感 的 。 


18.2.3 颜色 密度 


图 18-4 是 颜色 密度 的 显示 方案 。 用 户 可 以 通过 一 个 颜色 拾取 器 和 滑动 条 来 选择 图 像 中 某 种 或 
者 某 些 颜色 所 占 的 比例 。 我 们 也 可 以 选择 对 各 种 指定 的 颜色 比例 之 间 做 “与 ”CAND ) 或 者 是 “或 ” 
COR) 运算 。 这 是 一 种 较为 粗略 的 检索 手段 。 
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18.2.4 颜色 分 布 


用 户 也 可 以 用 粗略 的 颜色 块 来 自 定义 颜 色 在 图 像 中 分 布 的 草图 。 用 户 有 4 种 可 供 选择 的 栅 
格 大 小 : 1x1、2x2、4x4 和 8x8。 可 以 指定 在 其 中 一 种 栅 格 上 进行 查找 ， 这 些 栅 格 被 填充 以 一 
定 的 RGB 值 (也 可 以 不 填充 任何 值 ， 表 示 这 些 栅 格 是 不 需要 考虑 的 )。 数 据 库 中 的 每 幅 图 像 都 
需要 分 割 成 一 些小 的 窗口 ， 对 每 种 窗口 尺寸 均 需 分 割 一 次 ， 也 就 是 说 每 幅 图 像 需 要 做 4 次 这 样 
的 分 割 。 对 每 个 窗口 计算 聚 类 颜色 直方 图 ， 并 在 数据 库 中 存储 出 现 频率 最 高 的 5 种 颜色 。 每 个 
查询 方 格 的 位 置 和 大 小 同 图 像 窗口 的 位 置 和 大 小 相对 应 。 图 18-5 展示 了 这 种 布局 方案 的 使 用 
方法 。 
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图 18-5 ”颜色 分 布 的 网 格 
18.2.5 ”纹理 分 布 
和 按 颜 色 分 布 查找 类 似 ， 在 该 方式 下 ， 用 户 可 以 通过 绘制 期 望 的 纹理 分 布 来 进行 查询 。 用 户 
可 以 选择 0 密度 纹理 ，4 个 方向 (O° . 45° 、90。 . 135° ) 的 中 密度 边缘 纹理 及 这 4 个 方向 的 
组 合 纹理 、4 个 方向 (O° . 45° . 90° 、135" ) 的 高 密度 纹理 及 这 4 个 方向 的 组 合 纹理 。 纹 理 


匹配 根据 纹理 的 方向 和 密度 对 纹理 分 类 , 并 计算 分 类 后 的 纹理 与 用 户 选 择 的 纹理 分 布 的 相关 性 。 
图 18-6 展示 了 这 种 方案 的 使 用 方法 。 


. t | 
a RNY 
Doun r, S g 2 
he a 7 的 
ip % 4 
5 n 
5, 


iM 
pull Hl nN Hl 








图 18-6 ”纹理 分 布 网 格 
纹理 分 析 的 细节 问题 


我 们 需要 仔细 考查 图 像 检索 中 基于 纹理 的 内 容 分 析 的 一 些 细节 问题 。 这 些 细节 涉及 系统 在 实 
际 运 行 中 必须 采纳 的 一 些 技术 。 
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首先 ， 我 们 需要 建立 一 个 纹理 直方 图 。 用 于 理解 纹理 含义 的 常用 索引 结构 是 Tamura 索引 [8]。 
人 类 感知 方面 的 研究 表明 ， 人 们 在 识别 纹理 的 时 候 ， 重 复 性 、 方 向 性 以 及 间隔 尺寸 是 最 为 明显 的 
区 分 因子 [9]。 因 此 , 我 们 的 纹理 直方 图 是 建立 在 方向 (directionality ) bg 利 边 间隔 (edge separation) 
< 的 基础 上 的 二 维 纹理 直方 图 。 这 里 的 边 间隔 上 和 重复 性 有 着 密切 的 关系 。4 表 示 边 的 朝向 ，& 表示 
平行 的 纹理 边 之 间 的 距离 。 

为 了 提取 边缘 图 像 , 首先 需要 通过 下 式 将 图 像 转化 为 用 亮度 Y 表示 : 70.299R+0.587G+0.114B。 
然后 对 这 个 用 了 值 表示 的 图 像 利 用 Sobel 抽 边 算 子 〈Sobel edge operator) [10] 进 行 抽 边 操作 ， 抽 
边 过 程 就 是 将 下 面 的 3x3 权 系 数 矩 阵 〈convolution mask) 在 整 幅 图 上 移动 并 作 卷 积 。 


(18.2) 





如 果 我 们 对 每 个 像素 都 按照 上 面 的 矩阵 加 权 求 和 ， 我 们 都 得 到 了 我 们 所 需要 的 结果 的 一 个 近 
似 值 。 
边缘 大 小 D 和 边缘 斜率 9 定义 如 下 : 


D=,Jd?2+d?, 9 = arctan (18.3) 
x 


接 下 来 , 我 们 将 通过 删除 所 有 非 最 大 值 的 边 来 压缩 边缘 图 像 。 如 果 一 个 像素 ) 具有 边缘 斜率 内 
和 边缘 大 小 D;, 它 沿 @ 方 向 上 的 邻近 像素 为 j,， WE = 并 且 D; >D, 那么 像素 j 的 值 就 被 置 
为 0。 

为 了 得 到 一 幅 二 进 制 的 边缘 图 像 ， 我 们 只 需要 将 D 值 大 于 一 定 阐 值 的 像素 置 1， 而 将 其 余 像 
素 置 0 即 可 。 

对 于 边缘 间隔 E 洒 用 如 下 的 处 理 手段 ,我们 对 每 个 像素 i， 沿 着 它 的 边缘 斜率 9 求 与 之 最 近 的 
像素 j 之 间 的 距离 ， 像 素 j 的 边缘 斜率 必须 在 15” 的 误差 范围 内 满足 8; = 办 。 如 果 找 不 到 这 样 的 
像素 j， 那 么 我 们 就 说 这 个 边缘 距离 为 无 穷 大 。 

在 建立 好 边缘 方向 和 边缘 间隔 的 映射 之 后 ，C-BIRD 就 构建 出 一 个 有 关 é 和 g 的 2 维 纹理 直方 
图 。 初 始 化 时 直方 图 大 小 为 193x180， 其 中 193 这 个 值 作 为 表示 间隔 无 穷 大 的 保留 值 (BOF 
所 有 E>192 的 值 )。 直 方 图 的 大 小 在 两 个 维度 上 都 减少 为 原来 的 13， 最 后 的 大 小 为 65x60， 在 这 
个 过 程 中 ， 相 连接 的 项 被 求 和 。 

接 下 来 通过 将 每 个 像素 值 蔡 换 为 该 像素 与 其 相 邻 像素 的 加 权 和 来 使 直方 图 更 加 “平滑 ” 最 后 
的 结果 是 得 到 大 小 为 7x8 的 图 像 ， 这 个 时 候 我 们 将 值 7 视 为 表示 无 穷 大 的 保留 值 。 在 这 个 阶段 ， 纹 
理 直 方 图 也 需要 进行 归 一 化 ， 归 一 化 过 程 是 通过 将 直方 图 除 以 该 图 像 分 割 中 像素 数目 而 实现 的 。 
18.2.6” 按 光源 恒 常 性 查找 

光源 照明 度 变化 能 够 极 大 地 改变 照相 机 里 RGB 感应 器 测量 到 的 颜色 值 。 比 如 ， 在 强 光 下 的 
粉红 色 在 弱 光 下 会 变 成 紫色 。 

为 了 处 理 查 询 图 像 到 数据 库 中 相应 图 像 的 光照 变化 的 情况 ， 首 先 须 将 每 幅 图 像 的 每 个 颜色 通 
道 带宽 都 归 一 化 ， 然 后 压缩 成 一 个 36 维 的 向 量 [11]。 要 避免 光照 变化 所 带 来 的 颜色 变化 ， 将 每 幅 
| 图像 的 R, G, B 带宽 都 归 一 化 不 失 为 一 种 简单 而 有 效 的 办 法 。 接 下 来 , 我 们 利用 色 度 (chromaticity ) 
来 建立 一 个 二 维 的 颜色 直方 图 , 这 实质 上 是 一 个 带宽 比值 {R， G}(R+G+B) 的 集合 。 这 里 所 说 的 色 
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度 和 视频 中 的 色 度 很 类 似 ， 视 频 中 的 色 度 只 捕捉 颜色 信息 ， 而 不 包含 照明 度 (或 称 亮度 ) 的 信息 。 
接 下 来 ， 我 们 得 到 的 一 幅 128x128 的 2D 颜色 直方 图 可 以 视 为 一 幅 图 像 ， 并 使 用 基于 小 波 变 
换 的 压缩 方案 将 其 压缩 [12]。 为 了 进一步 减少 特征 向 量 中 向 量 分 量 的 数目 ， 我 们 计算 出 更 小 的 直 
万 图 的 DCT 系数 ， 并 按照 乙 字 排列 ， 通 过 这 些 变换 我 们 就 得 到 了 只 有 36 个 分 量 的 结果 。 
匹配 在 压缩 的 空间 上 进行 ， 通 过 比较 两 个 经 过 DCT 压缩 的 具有 36 个 分 量 的 特征 向 量 之 间 的 
距离 来 决定 匹配 的 程度 (这 里 的 按 光 源 恒 常 性 查找 方案 和 下 面 将 要 介绍 的 按 对 象 模型 查找 都 是 
C-BIRD 系统 所 独 有 的 )。 图 18-7 显示 了 这 种 查询 的 返回 结果 。 
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图 18-7 ROGUE EHR (其 中 一 些小 图 片 来 自 Corel Gallery, Corel 拥有 其 版 权 ) 


上 面 介绍 的 几 种 查找 方式 都 可 以 通过 选择 复 选 框 中 的 某 一 个 选择 框 而 一 次 性 完成 。 返 回 结果 
是 一 个 经 过 简化 的 图 像 列 表 ， 这 个 列表 由 单独 使 用 各 种 查找 方式 所 得 到 的 结果 关联 而 成 。 


18.2.7” 按 对 象 模型 查找 


C-BIRD 支持 的 最 重要 的 查找 方式 就 是 基于 对 象 模型 的 查找 。 用 户 可 以 选择 一 幅 样本 图 像 并 
在 该 图 中 选取 一 个 特定 区 域 来 进行 按 对 象 模型 查找 。 在 不 同 场景 条 件 下 拍摄 到 的 对 象 也 能 有 效 地 
进行 匹配 。 使 用 这 种 查找 方式 时 ， 用 户 先 选 择 一 个 较 小 的 区 域 ， 然 后 点 击 Model 按钮 进入 Object 
Select 模式 。 接 着 通过 交互 手段 选择 出 一 个 对 象 作为 查询 图 像 的 一 部 分 。 下 面 我 们 将 举例 说 明 按 
对 象 检索 的 各 组 成 部 分 。 

图 18-8 展示 的 是 对 象 样 本 的 选择 过 程 。 我 们 可 以 利用 一 些 基 本 的 形状 (如 矩形、 椭圆 ) 来 先 
拌 图 像 区 域 , 还 可 以 利用 基于 种 子 的 扩散 算法 实现 的 魔术 棒 , 激活 的 轮 廊 模 型 (图 上 的 “snake”) 
或 者 是 画 刷 。 所 有 选择 出 的 区 域 可 以 通过 并 、 交 、 差 等 布尔 运算 进行 组 合 ， 

“三 用 户 根据 需要 选择 出 了 对 象 区 域 ， 它 们 可 被 拖 至 右边 的 面板 ， 在 该 面板 中 显示 当前 选择 
的 所 有 对 象 。 可 以 将 多 个 对 象 区 域 拖 至 选择 面板 ， 但 选择 面板 中 只 有 当前 活动 的 对 象 能 够 作为 检 
索 的 依据 。 用 户 可 以 控制 扩散 阔 值 、 画 刷 宽度 、 主 动 寻找 轮廓 曲率 等 参数 ， 
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图 18-8 C-BIRD 界面 ， 显 示 使 用 基本 的 椭圆 进行 对 象 选择 BE 
插页 中 也 有 此 图 ， 本 图 片 来 自 Corel Gallery, Corel 拥有 其 版 权 ) 


按 对 象 模型 查找 的 详细 实现 机 制 在 [12] 中 有 详细 介绍 , 我 们 接 下 来 也 用 一 个 系统 来 说 明 一 下 。 
图 18-9 中 展示 了 它 的 算法 流程 框图 ,首先 , 对 用 户 选择 的 图 像样 本 进行 处 理 以 找到 其 中 的 特征 ( 具 
体内 容 在 后 面 介绍 )。 然 后 ， 我 们 使 用 在 18.2.6 中 介绍 过 的 对 颜色 直方 图 进行 相交 完成 第 一 次 筛 
选 。 接 下 来 ， 我 们 需要 估计 对 象 在 目标 图 像 中 的 位 置 (通过 缩放 、 平 移 或 旋转 )。 紧 接着 通过 对 
纹理 直方 图 求 交 来 进行 验证 ， 最 后 使 用 一 个 有 效 的 通用 哈 夫 变换 (Generalized Hough Transform) 
来 进行 形状 验证 。 





| 用 户 对 象 | | 模型 特征 
| “模型 选择 | 定位 





形状 确认 














图 18-9 ”对象 匹配 步骤 的 方块 图 


图 18-10 展示 了 一 幅 用 户 选 择 的 图 像 和 一 幅 在 数据 库 中 存放 的 目标 图 像 。 显 然 ， 图 像 b 应 该 
是 图 像 a 检索 的 结果 ， 尽 管 图 像 b 的 拍摄 背景 很 暗 。 
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a) 示例 模型 图 像 b) 示例 数据 库 图 像 ， 其 中 包含 模型 书 


图 18-10 ”模型 和 目标 图 像 ( 彩 色 插 页 中 也 有 此 图 ，Active Perception 
的 封面 来 自 Lawrence Erlbaum Associates 公司 ， 在 此 感谢 !) 


1. 特征 定位 的 场景 

前 面 介绍 的 按 对 象 模型 查找 〈 查 找 目标 图 像 中 的 某 个 对 象 ) 比较 让 人 满意 ， 但 是 在 检索 多 媒 
体 数据 方面 仍然 是 一 个 实现 起 来 比较 困难 的 机 制 。 在 不 同 的 光照 条 件 下 拍摄 的 物体 ， 其 搜索 难度 
就 会 更 大 。 人 眼 的 色 感 一 致 性 [19] 能 使 我 们 在 不 同 的 光照 条 件 下 识别 出 相同 的 物体 。 而 对 图 像 索 
引 而 言 ， 我 们 需要 定义 一 个 与 光照 变化 协 变 的 处 理 过 程 [12]。 这 样 的 话 ， 我 们 就 可 以 补偿 光照 变 
化 带 来 的 影响 。 

由 于 按 对 象 模型 查找 考查 的 是 图 像 中 的 对 象 ， 因 此 需要 应 用 某 种 图 像 分 割 技术 以 便 我 们 能 够 
考察 对 象 的 每 个 区 域 ， 例 如 ， 可 以 用 相同 颜色 属性 来 进行 图 像 分 割 。 尽 管 如 此 ， 实 际 中 更 为 有 效 
的 办 法 并 不 是 对 图 像 进行 完全 的 分 割 ， 而 是 使 用 一 些 较为 粗略 的 区 域 划分 ， 区 域 之 间 可 以 有 重生 
(这 就 是 所 谓 的 场景 [7])， 然 后 用 这 些 区 域 来 表示 一 种 粗略 的 特征 定位 。 

我 们 在 描述 特征 定位 的 处 理 过 程 的 时 候 ， 需 要 特别 注意 前 面 所 述 的 场景 驱动 的 查找 方法 的 一 
些 细节 问题 。 尽 管 我 们 对 光照 变化 比较 感 兴趣 ， 但 我 们 也 需要 关注 照明 变化 的 补偿 技术 ， 以 便 我 
们 能 够 实现 颜色 协 变 式 查找 。 

2. 特征 定位 与 图 像 分 割 

KF AAA (ef .[14]): MRR 是 图 像 分 割 的 一 个 区 域 ， 那 么 

1) R 是 连通 的 ，R 中 的 所 有 像素 也 是 连通 的 〈8 连通 或 是 4 连通 )。 

2) RAR; =O, i#j; 区 域 之 间 不 相交 。 

3) UR = 了 7 ，7 是 整个 图 像 ， 也 就 是 说 分 割 是 完备 的 。 

基于 图 像 分 割 的 对 象 检索 算法 通过 对 区 域 匹配 的 度量 给 予 一 定 的 偏差 来 允许 区 域 可 以 具有 
- 定 的 不 严格 精确 性 。 这 里 指 的 是 分 割 时 的 小 的 非 精 确 性 (分割 时 在 像素 级 的 近似 而 产生 )， 而 
不 是 指 分 割 中 的 过 度 分 割 或 是 欠 分 割 问题 。 这 种 技术 仅 适 用 于 简化 的 图 像 ， 因 为 其 中 对 象 的 像素 
具有 与 位 置 无 关 的 统计 特性 。 

粗略 的 图 像 特征 定位 以 近似 性 与 简洁 性 为 其 基本 思路 ， 它 比 图 像 分 割 技术 更 为 有 效 ， 也 更 容 
易 实 现 。 

定义 : 场景 Cj 是 特征 f 的 局 部 闭 包 。 

场景 Cj 用 像素 块 〈 简 称 为 块 ) 作为 定位 单位 ， 它 具有 如 下 的 描述 信息 ; 

1) L 包 络 。 一 个 表示 L 位 置 的 块 集合 。 

2) 几何 参数 : 
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质量 M(LCr)= 具有 特征 /的 像素 总 和 。 


M(LZ;) 
Bele CLL) = $, PIME): Pi 是 位 置 。 
i=} 
M(Ly) 
BD E(L;)= 》 P.-C (M(Zj) 
i=l 


3) 场景 的 颜色 、 纹 理 和 形状 参数 。 比 如 说 ， 场 景 的 色 度 、 延 展 度 和 场景 纹理 直方 轿 等 。 

一 开始 ， 图 像 被 细 分 为 正方 形 的 块 (例如 8x8 或 16x16)。 在 图 像 分 割 中 我 们 以 像素 为 基本 单 
位 ， 但 在 特征 定位 中 我 们 是 以 块 为 基本 单位 。 块 将 具有 类 似 特征 的 像素 归 类 ， 如 果 具 有 特征 f 的 
像素 足够 多 的 话 ( 比 如 说 大 于 10%)， 那 么 我 们 就 说 这 个 块 具有 特征 了/. 

在 同一 个 位 置 既 要 很 好 地 估算 对 象 一 级 的 统计 信息 又 要 表示 多 种 特征 ， 就 必须 按 块 来 处 理 。 
然而 ， 场 景 几 何 参 数 是 按照 像素 来 度量 的 ， 而 不 是 按照 块 来 度量 的 。 所 以 这 里 就 提出 了 特征 粒度 
的 问题 。 因 此 ， 特 征 定位 并 不 仅仅 是 图 像 分 割 的 一 个 简化 版 本 。 

在 进行 特征 定位 的 处 理 之 后 ， 下 面 这 些 断 言 有 可 能 为 真 : 

Da. 2 RPE. 

2) Sfag:L;0L,40, fg: 场景 可 
能 相交 。 

3) UL #1 ， 非 完备 性 ， 并 不 是 所 有 的 
像素 都 被 表示 。 

图 18-11 展示 了 一 幅 有 两 个 红色 特征 场景 
和 一 个 蓝 色 特征 场景 的 简 图 。 连 线 表示 图 中 的 
块 属 于 哪个 场景 包 络 。 在 图 中 ， 我 们 可 以 很 清 
楚 地 看 到 场景 不 必要 是 连通 、 不 相交 或 者 是 完 
备 的 ， 而 颜色 仍然 可 以 被 定位 。 

3， 块 分 类 图 18-11 特征 定位 的 场景 

在 场景 生成 以 前 ， 所 有 的 块 〈tile) 都 需要 根据 某 种 特征 进行 归 类 ， 比 如 红色 的 块 ， 或 者 红色 
和 蓝 色 的 块 。 因 为 在 CBIR 中 ， 颜 色 是 最 常用 的 信息 ， 而 且 平 移 、 旋 转 、 缩 放 等 变换 不 会 改变 颜 
色 ， 所 以 我 们 将 从 颜色 定位 开始 介绍 。 其 他 的 特征 〈 纹 理 、 形 状 、 运 动 轨迹 等 ) 都 可 以 类 似 地 定 
位 。 

4， 主 颜色 增强 

为 了 进行 颜色 定位 ， 我 们 要 先 通 过 恢复 图 像 获取 过 程 中 消除 的 一 些 颜色 信息 来 去 除 噪 声 信和 号 
及 瑕 疫 干 扰 。 这 里 的 处 理 是 把 图 像 从 RGB 彩色 空间 转换 到 色 度 -亮度 颜色 空间 。 假 设 像素 的 颜色 
是 (R，G，B)， 我 们 定义 








ER+G+B, r=R/I, g=Gil (18.4) 


这 里 我 们 就 把 亮度 7 MER (r，8) 分 隔 开 来 。 显 然 ， 我 们 也 可 以 使 用 别 的 具有 光源 恒 常 性 
的 颜色 模型 ， 如 18.2.6 节 所 示 。 

在 为 特征 块 分 类 之 前 ， 我 们 需要 把 图 像 的 像 案 按照 具有 主 颜色 (dominant color) 或 是 过 渡 色 
(transitional color) 来 进行 分 类 。 通过 考查 像素 和 其 相 邻 像素 之 间 的 关系 来 把 像素 划 归 为 主 像素 类 
和 过 渡 像 素 类 。 

EM: 主 颜 色 是 与 周围 像素 的 颜色 变化 无 关 的 像素 颜色 ， 而 过 渡 色 则 与 其 周围 像素 的 颜色 变 
化 相关 。 
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如 果 一 个 像素 在 一 个 阔 值 范围 内 没有 足够 多 的 具有 相似 颜色 的 相 邻 像素 ， 我 们 就 可 以 把 它 视 
为 噪声 ， 并 将 其 归 类 到 过 渡 像 素 类 里 。 我 们 可 以 使 用 一 个 5x5 的 均值 滤波 器 来 平滑 主 像素 类 的 像 
素 ， 从 而 增强 主 颜 色 的 一 致 性 ， 但 仅仅 平滑 具有 相似 颜色 的 主 像素 类 的 像素 却 不 能 增强 这 种 一 致 
性 。 图 18-12 说 明 ， 主 颜色 增强 可 以 使 得 图 18-10 的 目标 图 像 更 加 清晰 。 





a) 原 图 不 平滑 b) 用 浅 灰 过 渡 色 平滑 图 像 c) 用 替代 主 颜 色 〈 若 可 能 的 话 ) 中 的 过 渡 
色 平 滑 图 像 ， 下 面 的 一 行 显示 细节 图 像 


图 18-12 ”用 主 颜 色 进 行 平 滑 


5， 块 特征 列表 

每 个 块 具 有 一 个 块 特征 列表 (tile feature list), 记录 这 个 块 的 所 有 颜色 特性 以 及 几何 统计 特性 。 
在 第 一 阶段 的 处 理 过 程 中 ， 我 们 把 主 像素 类 添加 到 块 特征 列表 中 。 每 添加 一 个 像素 ， 如 果 它 的 颜 
色 在 色 度 -亮度 颜色 闷 值 里 和 列表 中 的 某 一 个 特征 很 接近 ， 那 么 这 个 特征 的 颜色 、 几 何 统计 信息 
将 被 更 新 ; 否则 , 我 们 要 在 列表 中 添加 新 的 颜色 特征 。 这 个 特征 列表 被 称 为 主 特征 列表 (dominant 
feature list). 

在 第 二 阶段 的 处 理 过 程 中 ， 所 有 的 过 渡 色 都 被 添加 到 主 特征 列表 中 ， 在 添加 过 程 中 不 会 修改 
列表 中 的 颜色 特征 ， 而 只 更 新 其 几何 统计 特性 。 为 了 确定 当前 过 渡 类 像素 应 该 合并 到 主 特征 列表 
中 的 哪个 节点 ， 我 们 要 考查 这 个 过 渡 像 素 的 相 邻 像素 ， 以 确定 它们 最 接近 的 颜色 。 如 果 相 对 应 的 
颜色 在 主 特征 列表 中 不 存在 ， 那 么 我 们 就 需要 额外 创建 一 个 过 渡 特 征 列表 并 将 这 个 过 渡 颜 色 添加 
进去 。 

如 果 一 个 过 渡 类 像素 tp 的 颜色 是 (r，g， 站 ， 那 么 它 对 应 的 主 颜色 (x; ,g; 1) 应 该 满足 下 式 ; 


He Foen (18.5) 


参数 nc 是 tp 的 相 邻 像素 〈 邻 域 ) 中 颜色 差异 很 大 的 像素 个 数 。 将 相似 的 颜色 取 平 均 生 成 平均 色 
(ni,8i,1i)。F(n,8i,1i) 是 第 i 种 平均 色 的 频 度 ， 也 就 是 我 们 对 多 少 种 相近 的 颜色 取 平 均 来 得 到 这 
个 平均 色 。 使 得 上 式 值 最 小 的 颜色 将 是 一 种 最 好 的 折衷: 我 们 既 考 虑 到 了 根据 颜色 相似 性 op 应 该 
对 应 的 主 颜 色 ， 又 考虑 到 了 其 邻 域 中 相似 颜色 的 种 数 。 在 我 们 的 系统 实现 中 ， 我 们 取 这 个 邻 域 大 
小 为 5x5。 

当 所 有 的 像素 都 添加 到 块 中 后 ， 我 们 将 合并 主 特征 列表 和 过 渡 特 征 列表 。 如 果 过 渡 特征 列表 
中 的 节点 和 主 特征 列表 中 的 某 个 节点 的 颜色 很 接近 ， 那 么 过 渡 特 征 列表 中 的 节点 将 被 合并 到 主 特 


PC 


min 


i=l 














#18 Ë RFAREPRIASMBE 371 


征 列表 中 的 节点 ， 并 且 更 新 其 几何 统计 信息 。 否 则 ， 这 两 个 节点 都 会 保存 到 最 终 的 列表 中 。 

6. 场景 生成 

场景 通过 一 个 动态 4x4 的 登 加 金字 塔 过 程 来 生成 [1$]。 每 一 层 的 父 节 点 通过 公平 竞争 以 包容 
其 子 节点 。 图 像 块 是 这 个 金字 塔 最 底层 的 子 节点 ， 当 这 种 竞争 过 程 一 直 延 续 到 金字 塔 的 顶层 时 就 
会 生成 整个 图 像 的 场景 。 金 字 塔 顶层 的 节点 关联 了 一 个 颜色 特征 列表 ， 其 中 有 块 的 集合 〈 称 之 为 
包 络 ) 及 一 些 几 何 统计 特性 [12]。 

每 个 层次 的 竞争 过 程 使 用 一 个 2x2 的 非 登 加 链接 结构 来 初始 化 ， 也 就 是 将 4 个 子 节点 链接 到 
一 个 父 节 点 。 这 个 初始 化 的 过 程 LocalesInit 如 下 所 示 : 526 


it #2 18-1 Localesinit / 链接 初始 化 的 伪 码 
BEGIN 
令 c[ma][m] 为 子 节点 的 二 维 数组 
令 p[nw2][my2] 为 父 节点 的 二 维 数 组 
For 每 个 子 节点 cly] do 
cn = cll, pn = pli2]UO] 
For cn 特征 列表 中 的 每 个 节点 cn, do 
在 pn 特征 列表 中 找 一 个 具有 相似 颜色 的 节点 pn, 
于 合并 后 的 cn, 和 pn, 的 高 心率 E< T then 
合并 cn, 和 png 
fpng 不 存在 或 者 E>= T then 
将 cn, 加 到 pn 特征 列表 的 开头 
END 


初始 化 之 后 ， 我 们 就 可 以 开始 前 面 所 谓 的 竞争 过 程 。 由 于 使 用 的 是 4x4 的 又 加 金字 塔 结构 ， 
所 以 将 会 有 4 个 父 节 点 竞争 与 某 一 个 子 节点 的 链接 关系 。 这 个 过 程 可 以 用 Envelope Gro wing 
伪 码 描述 如 下 : 


过 程 18-2 EnvelopeGrowing // 场景 生成 的 伪 码 挫 述 
BEGIN a 
$ cfnalny] 为 子 节点 的 二 维 数组 
令 p[mnv2][my2] 为 父 节点 的 二 维 数组 
Repeat until 父子 节点 的 链接 关系 不 再 变化 
For 每 个 子 节点 c[ij0] do 
cn = cli] 
me a] 
2 2 
For 特征 列表 cn 中 的 每 个 节点 cn do 
在 特征 列表 pn 中 寻找 具有 相似 颜色 并 使 距离 NC(cnp)— CC 1 具有 最 小 值 的 节点 pn 
If 合 并 后 的 cnp 和 pn, 的 离心 率 E< t then 
删除 cn 与 原来 父 节 点 的 链接 ， 并 将 这 个 节点 链接 到 父 节点 pra 
更 新 相关 的 几何 统计 特性 
在 父 节点 p 的 特征 列表 中 删 去 空 节点 
在 金字 塔 中 逐 层 向 上 重复 如 上 过 程 
END 
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在 上 述 过 程 之 后 ， 一 些小 质量 的 场景 将 被 删除 。 因 为 小 场景 一 般 而 言 不 够 准确 ， 它 们 更 可 能 
是 对 象 的 一 个 微不足道 的 部 分 甚至 可 能 是 噪声 干扰 。 为 了 提高 检索 效率 ， 所 有 的 场景 将 按照 其 质 
量 降序 排序 。 
下 式 为 颜色 更 新 方程 ， 它 表示 的 是 第 k 十 1 次 迭代 的 过 程 ， 其 中 父 场景 为 j， 子 场景 为 i: 


T T 
(k) (Kk) 7 (k) (k) (k) (k) 7k) (k) 
ry al} ) M; +(n i & ) M; 


(k+1) (k+l) (k+l) NT | j 
(r! Bj Ol) ) = M® aM (18.6) 
J i 
下 面 是 几何 统计 特性 的 更 新 方程 式 : 
Mi? =MP+MP (18.7) 
CPMP +c%y 
ci) = 4 L MN (18.8) 
(k+1) 
mM “+ 
ee - (EM +CH +08 JMP HEP +08 +CH MP 
: M+) (18.9) 


(k+l)? (k+1)? 
-Crj -Oyj 


图 18-13 中 显示 了 样本 和 目标 图 像 的 颜色 场景 。 





b) 数据 库 图 像 的 颜色 场景 
图 18-13 ”颜色 场景 〈 彩 色 插 页 中 也 有 此 图 ) 


7， 纹 理 分 析 
每 个 场景 均 与 一 个 基于 场景 的 纹理 直方 图 有 关 ， 纹 理 直 方 图 在 18.2.5 节 中 进行 过 介绍 。 在 生 
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图 的 量 级 来 确定 。 我 们 通过 一 个 高 斯 滤波 器 对 纹理 直方 图 进行 平滑 ， 再 二 次 采样 为 8x7 的 大 小 ， 
最 后 对 其 归 一 化 。 

基于 场景 的 纹理 与 那些 全 局 的 纹理 相 比 ， 是 一 种 更 为 有 效 的 度量 方式 ， 因 为 与 场景 相关 的 阔 
值 可 以 进行 自 适应 的 调整 。 图 18-14 比较 了 基于 场景 的 纹理 检测 与 基于 全 局 范围 的 纹理 检测 在 
18.2.5 节 中 讨论 过 )。 通过 对 比 图 中 台灯 和 香 获 的 边缘 图 像 ， 我 们 可 以 看 出 基于 全 局 范围 的 纹理 检 
测 丢 失 了 不 少 的 边缘 点 ， 而 使 用 基于 场景 的 纹理 检测 则 保留 了 大 部 分 边缘 点 。 为 了 绘制 出 基于 场 
景 的 边缘 图 像 ， 我 们 需要 把 所 有 场景 生成 的 边缘 像素 都 画 出 来 。 


S 


/ 


本 


a ae 


I — Ee a aa 
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图 18-14 Sa 5SeEF RRNA 


8， 对 象 建 模 与 对 象 匹 配 

C-BIRD 的 对 象 模型 包含 一 系列 已 定位 的 特征 。 如 前 所 述 ， 它 们 提供 了 最 近 一 次 匹配 的 丰富 
的 统计 信息 。 它 们 间 的 几何 关系 〈 比 如 说 场景 的 空间 排列 ) 也 被 提取 出 来 。 一 种 最 好 的 表示 方式 
是 把 各 个 场景 的 质心 组 合成 一 个 向 量 来 表示 。 

按 对 象 查找 可 以 通过 平移 、 缩 放 、 旋 转 以 及 灯光 照明 变换 〈 更 多 细节 请 参见 [12]) 来 恢复 2D 
的 对 象 。C-BIRD 也 支持 组 合式 的 查找 ， 其 中 按 对 象 查找 可 以 和 其 他 较 简 单 的 查找 方式 结合 使 用 。 
此 时 ， 我 们 需要 根据 减少 查找 时 间 的 原则 来 决定 查找 方式 的 执行 顺序 。 我 们 知道 ， 按 对 象 查找 是 
最 为 复杂 的 方式 ， 所 以 我 们 最 后 执行 这 种 方式 的 查找 ， 而 且 它 只 是 根据 前 面 查找 方式 返回 的 结果 
进行 进一步 的 检索 。 这 样 就 可 以 大 大 节省 时 间 。 

用 户 选择 出 的 图 像 对 象 被 传送 到 服务 器 进行 场景 匹配 。 由 于 用 户 提交 的 对 象 模型 的 场景 定位 
信息 被 认为 是 目标 图 像 中 应 该 具有 的 定位 信息 ， 所 以 我 们 需要 在 目标 图 像 的 场景 和 对 象 模型 的 场 
景 实现 一 一 对 应 。 这 个 对 应 关系 可 称 为 分 配 (assignment). 

场景 分 配 通 过 一 系列 的 筛选 检测 来 验证 对 象 的 匹配 性 。 我 们 可 以 按照 复杂 性 与 依赖 性 递增 的 
顺序 来 决定 筛选 检测 的 次 序 。 图 18-9 展示 了 对 象 匹配 过 程 的 执行 步骤 : a) 对象 模型 选择 和 模型 
的 特征 定位 ，b) 基于 颜色 的 筛选 检测 ，c) 形态 估计 ，d) 纹理 支持 ，e) 形状 验证 。 

对 象 匹配 度量 值 C 的 定义 公式 如 下 : 


O=n> wd; (18.10) 
i=l 
其 中 n 是 需要 分 配 的 场景 数目 ，m 是 筛选 检测 的 种 数 ，Ci 是 在 筛选 检测 ;中 得 到 的 适应 值 ，w; 是 
反映 每 个 筛选 检测 的 适应 值 重要 程度 的 加 权 系 数 。w; 可 以 是 任意 的 ， 其 总 和 不 必 为 1。 而 oE 
在 [0,1] 区 间 内 归 一 化 ， 这 样 相互 之 间 的 数字 才 具 有 可 比 性 。 
从 统计 的 角度 来 看 ， 具 有 较 大 质量 (有 较 多 的 像素 ) 的 场景 产生 错误 定位 的 机 率 较 小 。 在 大 
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的 场景 中 ， 特 征 能 被 很 好 地 定义 ， 小 错误 也 在 平均 水 平 之 下 ， 所 以 我 们 在 处 理 这 些 质量 较 大 的 场 
景 的 时 候 能 够 处 理 得 非常 好 。 类 似 地 ， 我 们 分 配 较 多 的 对 象 模 型 场景 比分 配 较 少 的 场景 要 好 ， 因 
为 更 多 的 场景 可 以 累积 更 大 的 场景 质量 ， 从 而 使 平均 错误 率 降低 。 

我 们 首先 分 配 尽 可 能 多 的 场景 ， 然 后 计算 其 对 象 匹 配 度量 值 并 在 一 定 的 阐 值 范围 内 检查 错误 
情况 。 场 景 可 以 在 分 配 的 过 程 中 被 移 除 或 者 是 被 替换 ， 直 到 我 们 找到 合适 的 匹配 为 止 。 这 时 得 到 
的 匹配 可 能 就 是 最 佳 匹配 ， 所 以 我 们 没有 必要 去 检查 别 的 分 配 。 在 这 种 情况 下， 我 们 不 必 检 查 所 
有 可 能 的 场景 分 配 。 

在 最 坏 的 情况 下 ， 当 目标 模型 没有 出 现在 检索 图 像 中 时 ， 我 们 就 必须 检测 所 有 可 能 的 分 配 后 
才能 认定 没有 匹配 的 图 像 。 数 据 库 中 的 图 像 场景 以 及 对 象 模型 中 的 场景 都 按照 质量 降序 排列 。 

9， 匹 配 步 又 

用 于 场景 分 配 和 验证 的 筛选 检测 步骤 如 下 : 

。 基 于 颜色 的 筛选 检测 CPE b) 

- 按 光 源 恒 常 性 筛选 
。 ERRE 
- 弹性 相关 性 

。 图 像 对 和 象 的 形态 估计 〈 步 又 c) 

。 ZEER GPE d) 

。 形状 验证 〈 步 骤 e) 

。 光 照 变 化 恢复 

由 于 光照 条 件 很 容易 发 生变 化 ， 因 此 模型 与 目标 之 间 可 能 存在 颜色 的 差异 ， 在 这 里 我 们 就 必 
须 采 纳 颜 色 协 变 匹 配 的 思想 。 光 线 变 化 的 对 角 线 模型 指出 ， 红 色 通 道 通过 一 个 整体 的 比例 因子 来 
响应 光线 的 变化 ， 绿 色 通 道 和 蓝 色 通道 也 一 样 ， 只 是 这 两 者 有 不 同 的 比例 因子 [11]。 

由 于 每 一 个 从 模型 场景 到 目标 场景 的 分 配 都 蕴涵 了 一 种 对 角 式 的 光线 偏 移 ， 所 以 我 们 需要 通 
过 场景 投票 来 决定 正确 的 光线 变化 。 在 投票 空间 的 一 个 单位 里 如 果 出 现 多 次 投票 ， 就 意味 着 此 处 
是 光线 变化 的 一 个 峰值 。 利 用 色 度 投票 方案 ， 我 们 将 所 有 的 图 像 场景 和 模型 场景 匹配 起 来 为 光线 
变化 的 值 投票 ， 并 将 其 存 入 一 个 表决 矩阵 中 。 

我 们 可 以 利用 弹性 相关 性 来 估计 色 度 偏 移 参 数 ， 进 而 估计 这 种 从 模型 场景 到 图 像 场景 的 分 配 
过 程 的 可 行 性 。 这 个 过 程 通过 计算 正确 分 配 的 概率 来 返回 一 些 可 能 的 分 配 结果 。 在 这 里 有 一 个 色 
度 偏 移 参 数 的 候选 集 ， 每 个 候选 参数 都 用 于 计算 弹性 相关 性 度量 值 。 如 果 这 个 度量 值 足够 高 〈 例 
如 高 于 80%)， 那 么 弹性 相关 性 检测 过 程 就 返回 可 能 的 分 配 结果 ， 并 通过 形态 估计 、 纹 理 支持 以 
及 形状 验证 来 进行 对 象 匹配 测试 。 

图 18-15 展示 了 模型 色 度 空间 Qg) 中 弹性 相关 性 的 处 理 过程 。 模 型 图 像 有 三 个 颜色 场景 
A’、B'、C’。 图 像 的 颜色 场景 A, B, C D, E F 
的 光照 度 都 被 修正 到 模型 的 光照 度 。 虽 然 场景 A, 
B’, C) (A, B, C 的 位 置 并 非 精确 一 致 ， 但 
是 我 们 仍然 将 之 视 为 相互 匹配 的 实体 。 由 于 我 们 使 
用 的 是 弹性 相关 性 检测 而 不 是 严格 的 模板 匹配 〈 或 
相关 性 ) 方法 ， 这 就 使 得 我 们 的 目标 场景 节点 可 以 
出 现在 模型 节点 的 邻 域 中 ， 而 不 是 严格 的 空间 位 置 


对 等 。 Æ 18-15 ”Qt{r',g')} 中 的 弹性 相关 性 
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形态 估计 《步骤 c) 利用 场景 间 的 几何 相关 性 来 确定 形态 参数 ， 因 此 它 要 在 一 个 可 行 的 场景 
分 配 上 进行 。 场 景 的 空间 关系 通过 它们 质心 之 间 的 关系 来 表示 。 更 重要 的 是 ， 我 们 仅 需 要 2 个 分 
配 的 场景 就 能 够 得 到 足够 的 几何 信息 来 恢复 刚体 的 2D 位 移 模 型 (利用 4 个 参数 ， 即 x，y 方向 的 
平移 量 、 旋 转 量 R 和 缩放 参数 s[12])。 

形态 估计 的 结果 既是 分 配 的 最 佳 形 态 参数 又 是 最 小 化 的 目标 值 ， 这 个 值 指示 了 在 刚体 位 移 模 
型 的 意义 下 场景 分 配 的 匹配 适合 程度 。 如 果 错误 率 在 一 定 的 阔 值 范围 内 ， 我 们 就 可 以 接受 这 样 的 
形态 估计 。 

支持 纹理 的 筛选 检测 过 程 使 用 一 种 改进 的 直方 图 求 交 技术 一 一 将 分 配 了 的 场景 的 纹理 直方 图 
求 交 。 如 果 相 交 的 度量 值 大 于 一 定 的 阔 值 ， 就 通过 了 纹理 匹配 。 

最 后 的 匹配 验证 过 程 是 通过 利 霍 氏 变换 (Generalized Hough Transform, GHT) [16] 进 行 形状 
WIE GER e). GHT 在 噪声 干扰 和 遮挡 方面 具有 较 好 的 健壮 性 [17]。 对 可 能 的 旋转 、 缩 放 、 平 
移 参数 进行 完全 的 GHT 搜索 将 会 产生 非常 大 的 开销 ， 而 且 结 果 也 未 必 准 确 。 完 全 的 搜索 对 大 型 
数据 库 而 言 是 不 适用 的 。 

尽管 如 此 ， 在 执行 形态 估计 之 后 ， 我 们 已 经 知道 了 形态 参数 ， 就 可 以 把 这 些 参数 作为 模型 的 
参考 点 在 数据 库 图 像 中 搜索 具有 类 似 参 考点 的 图 像 。 这样 ，GHT 搜索 就 简化 为 仅 对 参考 点 附近 一 
个 小 的 邻 域 范围 内 可 能 匹配 数 的 确认 过 程 。 GHT 匹配 方法 仅 需 几 秒 钟 即 可 完成 一 般 的 搜索 。 由 于 
在 计算 边 的 斜率 的 过 程 中 引入 的 误差 在 参考 点 处 的 误差 值 最 小 ， 所 以 我 们 通常 取 参 考点 为 模型 的 
中 心 。 

一 旦 通过 了 形状 验证 ， 图 像 就 会 作为 一 个 匹配 结果 返回 给 用 户 ， 如 果 匹 配 度量 值 C 足够 大 ， 
将 同时 返回 C 值 。 在 获取 了 数据 库 中 所 有 图 像 的 匹配 度量 值 Qi 以 后 ，Q; 值 将 按照 值 的 大 小 降序 
排列 。 如 果 需 要 的 话 ， 可 以 把 匹配 数 限制 为 @ EAH k PILE. 在 返回 正确 的 匹配 结果 后 ， 我 
们 需要 进行 光照 变换 恢复 的 过 程 。 

图 18-16a 显示 了 GHT 从 图 18-16b 所 示 的 数据 库 图 像 中 搜索 红皮书 的 投票 结果 。 图 中 暗 的 地 
方 指示 GHT 过 程 在 此 处 接收 到 的 投票 数 , 进而 指示 对 象 在 图 像 的 这 个 位 置 出 现 的 可 能 性 。18-16b 
展示 的 是 为 这 本 书 重建 的 边缘 图 像 。 由 于 已 经 知道 模型 的 边缘 图 像 及 其 对 象 的 定位 、 朝 向 以 及 缩 
放 情 况 ， 所 以 这 个 重建 的 过 程 是 自动 完成 的 。 





a) GHT 存储 器 阵列 图 像 b) 使 用 估计 的 形态 和 GHT 模板 
CORA) 重建 的 被 检测 对 象 


图 18-16 使 用 GHT 进行 形状 验证 
图 18-17 展示 了 在 C-BIRD 系统 中 搜索 红皮书 的 一 些 结果 。 
由 于 C-BIRD 是 一 个 实验 系统 ， 它 证 明了 按照 对 象 模型 进行 查找 的 方式 是 可 行 的 。 
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c) 使 用 GHT 形状 验证 的 查找 结果 
图 18-17 按 红皮书 模型 依据 光照 变化 得 到 的 查找 结果 
(一 些小 图 片 来 自 Corel Gallery, Corel 拥有 其 版 权 ) 

10. 视频 场景 

定义 : 视频 场景 是 指 在 视频 中 一 组 在 时 空 上 具有 相似 特征 的 图 像 特征 场景 的 序列 。 

和 图 像 中 的 场景 一 样 ， 视 频 场景 也 具有 颜色 、 纹 理 和 几何 属性 。 此 外 ， 视 频 场景 还 能 够 捕获 
运动 参量 ， 比 如 运动 轨迹 和 速度 ; 它 也 能 够 捕获 时 间 信 息 ， 比如 视频 场景 的 存在 期 以 及 当前 视频 
场景 与 其 他 视频 场景 间 的 时 间 关 系 等 。 

由 于 视频 是 按照 小 的 时 间 片 来 播放 的 ， 我 们 就 有 了 更 为 简单 的 处 理 方式 ， 我 们 可 以 根据 前 面 
己 知 的 视频 帧 得 到 当前 帧 的 场景 信息 ， 而 不 必 对 每 一 帧 都 从 头 开始 计算 [18]。 

图 18-18 展示 了 在 加 快 场景 生成 速度 后 ， 在 帧 内 生成 的 场景 和 在 帧 间 通 过 预测 、 精 化 得 到 的 
场景 之 间 有 一 些小 小 的 差异 。 

这 里 不 对 视频 场景 的 生成 做 进一步 的 讨论 。 我 们 只 提出 这 样 一 个 论断 : 帧 间 的 场景 生成 算法 
通常 要 比 帧 内 的 场景 生成 算法 快 。 此 外 ， 视频 场景 提供 了 对 实时 视频 对 象 进行 分 割 和 跟踪 的 有 效 
途径 [18]。 





a) 原始 图 像 b) 帧 内 结果 c) 帧 间 结果 
图 18-18 帧 内 和 帧 间 视 频 场 景 算 法 的 结果 


18.3 ”当前 图 像 查找 系统 概览 


在 本 节 ， 我 们 将 对 当前 其 他 一 些 图 像 搜 索引 擎 进行 介绍 ， 并 且 给 出 每 一 个 图 像 搜 索引 擎 的 相 
Æ URL 以 供 读者 进一步 研究 (更 多 的 URL 和 相关 资料 请 参见 本 节 网 站 第 11 章 的 Further Explorer 
部 分 )。 下 面 的 介绍 并 不 是 一 个 完整 的 概览 。 其 中 大 部 分 搜索 引擎 是 实验 性 质 的 成 果 ， 但 是 它们 
都 具有 一 些 比较 有 趣 的 特性 。 有 一 些 系 统 的 查询 特征 和 前 面 介绍 的 C-BIRD 很 不 相同 。 


18.3.1 QBIC 


基于 图 像 内 容 的 查询 (QBIC) Æ H IBM 位 于 San Jose 的 Almaden 研究 中 心 的 研究 员 Niblack 
及 其 同事 共同 开发 的 [19]。 它 是 现在 最 著名 的 搜索 引擎 。 关 于 该 引擎 的 更 多 信息 可 以 参考 
www.qbic.almaden.ibm.com 。 

QBIC 一 个 比较 有 趣 的 特征 是 它 对 颜色 直方 图 间 差 异 的 度量 标准 。 与 式 (18.1) 中 介绍 的 简单 
直方 图 求 交 不 同 ， 它 的 度量 标准 考虑 到 了 相似 的 颜色 《比如 红色 和 橘红 色 ) 在 颜色 直方 图 上 求 交 
不 应 该 具有 0 值 。 这 里 ， 它 采用 了 颜色 -距离 矩阵 4， 其 元 素 为 : 

ay =(1—dy / dmax) (18.11) 
其 中 ， 几 是 三 维 颜色 距离 〈 使 用 欧式 距离 ， 或 者 是 其 他 一 些 类 似 的 距离 ， 如 绝对 值 之 和 )。 

然后 ， 直 方 图 差 值 D? 则 按 下 式 定 义 [20]: 

D’ =z" Az (18.12) 
向 量 z 是 直方 图 差 值 向 量 (对 向 量化 的 直方 图 而 言 )。 例 如 ， 如 果 二 维 的 色 度 直方 图 是 16x16 的 ， 
那么 其 直方 图 差 值 向 量 z 的 长 度 就 是 256。 

这 种 度量 标准 最 大 特征 就 是 它 允 许 我 们 用 平均 三 维 颜色 做 简单 的 差 值 来 进行 第 一 次 筛选 ， 因 
为 这 种 度量 标准 保证 其 筛选 的 结果 一 定 包含 所 有 由 式 〈18.12) 筛选 出 的 结果 ， 然 而 它 更 简单 。 

QBIC 在 其 第 一 个 版 本 的 基础 上 又 作 了 进一步 的 开发 ， 现 在 已 经 成 为 IBM 的 “数字 图 书馆 ” 
产品 套件 的 基本 组 成 部 分 。 其 目的 就 在 于 提供 一 个 完整 的 媒体 收集 管理 系统 。 

IBM 在 QBIC 方面 的 另 一 个 较 有 意思 研究 方向 是 将 灰 度 级 图 像 纳 入 其 检索 范围 [21]， 这 是 一 
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个 难度 非常 大 的 检索 工作 。QBIC 还 可 以 与 其 他 具有 仅 基 于 颜色 属性 的 检索 手段 相 结 合 ， 这 些 手 
段 可 以 是 纹理 注解 ， 比 如 标题 和 纹 题 。 由 于 纹理 在 某 种 程度 上 反映 了 图 像 的 结构 信息 ， 所 以 它 对 
灰 度 级 图 像 的 检索 非常 有 帮助 。 当 数据 集 变 得 非常 大 的 时 候 ， 数 据 库 管 理 的 问题 就 变 得 非常 突出 
了 ， 这 时 我 们 要 非常 小 心地 控制 簇 的 大 小 ， 并 需要 很 好 地 管理 一 个 基于 树 的 索引 结构 。 


18.3.2 ”加 州 大 学 圣 芭 芭 拉 分 校 的 搜索 引擎 


。 亚 历 山 大 数字 图 书馆 (ADL) 是 由 加 州 大 学 圣 芭 芭 拉 分 校 开 发 的 一 个 较为 成 熟 的 图 像 搜 索 
引擎 。 目 前 ，ADL 主要 处 理 地 理 数据 “网 上 的 空间 数据 ”。 用 户 可 以 同一 幅 地 图 进行 交互 
并 对 地 图 进行 缩放 ， 而 属于 那些 被 选择 的 地 图 区 域 的 图 像 作为 检索 结果 返回 。 这 种 处 理 方 
式 缓解 了 我 们 需要 存储 大 小 为 几 TB 的 卫星 图 像 数 据 的 压力 。ADL 使 用 了 多 分 辩 率 的 处 理 
手段 ， 这 使 得 我 们 可 以 利用 较 小 的 图 像 块 来 进行 快速 浏览 。 多 分 辨 率 图 像 允 许 我 们 在 图 像 
中 选择 一 个 特定 的 区 域 ， 并 对 其 进行 缩放 。 关 于 这 个 搜索 引擎 的 更 多 信息 请 参见 
http://www.alexandria.ucsb.edu. 

。NETRA[22] 也 是 亚历山大 数字 图 书馆 项 目的 一 部 分 。 在 其 第 二 个 版 本 NETRA I 中， 着 重 
强调 了 基于 对 象 或 是 基于 区 域 的 查找 过 程 中 的 彩色 图 像 分 割 技 术 。 关 于 NETRA 的 更 多 信 
息 请 参见 http://maya.ece.ucsb.edu/Netra/。 

。 基 于 理解 的 图 像 检 索 PBR) 用 于 实现 一 个 更 好 的 学 习 技 术 和 更 可 靠 的 反馈 技术 ， 它 使 用 
一 种 学 习 算 法 来 理解 用 户 提交 的 查询 要 求 中 所 包含 的 查询 意图 ， 并 依 此 得 到 用 户 所 需 的 正 
确 查 询 结果 。 关 于 它 的 更 多 信息 请 参见 http:/wwwmmdb.ece.ucsb.edu/demo/corelacmy/。 


18.3.3 ”加 州 大 学 伯克利 分 校 的 数字 图 书馆 项 目 
加 州 大 学 伯克利 分 校 的 搜索 引擎 的 资料 可 以 参见 http://elib.cs.berkeley.edu。 这 个 搜索 引擎 主 


要 用 于 商业 或 者 其 他 类 型 的 股票 照片 ， 它 也 支持 基于 文本 的 检索 。 该 系统 的 实验 版 本 试图 将 文本 
中 的 语义 信息 作为 图 像 检索 的 一 个 线索 。 


18.3.4 Chabot 


Chabot 也 是 由 加 州 大 学 伯克利 分 校 开发 的 ， 这 是 一 个 开发 较 早 的 系统 ， 其 主要 目标 是 包含 
500 000 幅 多 分 辨 率 的 数字 图 像 。Chabot 使 用 关系 数据 库 管 理 系统 POSTGRES 来 管理 其 图 像 以 及 
与 图 像 相 关 的 文本 数据 。 数 据 库 中 不 仅 存储 文本 数据 ， 而 且 存储 颜色 直方 图 数据 。 除 了 颜色 比例 
以 外 , 系统 也 支持 类 似 于 “主要 是 红色 ”的 这 类 简单 查询 .这 个 系统 的 更 多 信息 请 参见 http://http.es. 
berkeley.edu/ginger/chabot.html. 


18.3.5 Blobworid 

Blobworld 也 是 由 加 州 大 学 伯克利 分 校 开 发 的 。 它 尝试 通过 分 割 图 像 来 获取 对 象 的 含义 。 为 
了 进行 恰当 的 分 割 ， 它 使 用 最 大 期 望 算法 (EM 算法 ) 来 得 到 特征 空间 上 聚 类 的 最 大 似 然 值 。 
Blobworld 同时 支持 基于 文本 和 基于 内 容 的 检索 。 该 系统 也 有 不 同 级 别 的 反馈 机 制 ， 在 反馈 中 显 
示 提 交 的 图 像 的 内 部 表示 以 及 查询 的 结果 ， 用 户 可 以 根据 反馈 的 信息 更 好 地 执行 算法 。 药 多 信息 
请 参见 http://elib.cs.berkeley.edu/photos/blobworld。 
18.3.6 ”哥伦比亚 大 学 的 图 像 搜索 器 

哥伦比亚 大 学 的 一 个 研究 小 组 开发 了 如 下 的 一 些 搜索 引擎 ; 


。 基 于 内 容 的 可 视 化 查询 (CBVQ) 是 该 系列 的 第 一 个 系统 ， 属 于 哥伦比亚 大 学 ADVENT 研 
究 计划 的 一 部 分 (ADVENT 代表 全 数字 视频 的 编码 、 网 络 连 接 及 传输 )。 它 采用 基于 颜色 、 
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纹理 以 及 颜色 成 分 的 基于 内 容 的 图 像 的 检索 方式 。 更 多 信息 请 参见 htp://maya.ctr.columbia. 
edu:8088/cbvq. 

VisualSEEk 是 一 个 彩色 图 像 检 索 系 统 。 其 检索 手段 有 基于 颜色 布局 的 检索 , 基于 图 像 实例 
的 检索 (例如 提供 一 幅 种 子 图 像 的 URL), 或 者 是 根据 一 幅 先 前 匹配 的 图 像 实例 进行 检索 。 
VisualSEEk 支持 基于 可 视 化 特征 的 空间 关系 的 查询 ,更 多 信息 请 参见 http://www.ctr.columbia. 
edu/visualseek 。 

SaFe 是 一 个 集成 的 图 像 空 间 和 特征 查询 系统 。 该 系统 通过 从 图 像 中 分 割 出 区 域 并 比较 这 些 
区 域 的 空间 排列 情况 来 进行 查询 。 更 多 信息 请 参见 http://disney.ctr.columbia.edu/safe。 
WebSEEk 从 网 上 收集 图 像 (和 文本 )。 这 个 系统 着 重 于 建立 一 个 可 供 检索 的 目录 结构 。 这 
些 目 录 分 别 基于 不 同 的 主题 ， 比 如 动物 、 建 筑 、 艺 术 、 天 文 等 。 相 关 的 反馈 是 以 小 块 图 像 
或 者 是 可 动 图 标的 形式 提供 的 。 对 视频 而 言 ， 一 种 较 好 的 反馈 形式 是 包含 一 些 能 够 表示 较 
小 的 视频 序列 的 GIF 动画 图 片 。 更 多 信息 请 参见 http:/www.ctrcolumbia.edu/weebseek (其 
中 包括 一 个 演示 版 本 )。 

18.3.7 Informedia 


卡 内 基 梅 隆 大 学 的 研究 项 目 Informedia 数字 视频 图 书馆 项 目 现在 已 经 有 了 第 二 代 的 成 果 ， 这 
就 是 Informedia I。 这 个 系统 的 核心 是 所 谓 的 “视频 挖 据 ”。 该 系统 的 开发 得 到 了 政府 和 一 些 大 公 
司 的 支持 。 更 多 信息 请 参见 http://informedia.cs.cmu.edu/。 


18.3.8 MetaSEEk 


MetaSEEk 是 一 种 元 搜索 引擎 。 它 是 在 哥伦比亚 大 学 的 研究 项 目 IMKA 智能 多 媒体 知识 应 用 
项 目下 开发 的 成 果 。 其 思想 在 于 查询 一 些 在 线 的 图 像 搜索 引擎 ， 然 后 根据 它们 对 不 同 种 类 的 可 视 
化 查询 的 性 能 来 对 这 些 搜索 引擎 排序 ， 最 后 针对 某 个 查询 请 求 ， 选 择 相应 的 搜索 引擎 来 响应 用 户 
请 求 。 更 多 信息 请 参见 http://ana.ctr.columbia.edu/metaseek/。 

18.3.9 Photobook 和 FourEyes 


Photobook[24] 是 一 个 早期 的 CBIR 系统 ， 它 由 MIT 的 媒体 实验 室 开 发 。 它 利用 三 种 不 同 的 机 
制 来 进行 三 种 不 同类 型 的 图 像 内 容 检索 一 一 外 观 、2D 形状 和 纹理 。 对 前 两 种 类 型 ， 系 统 首 先 构造 
一 个 特征 函数 空间 一 一 一 个 “特征 图 像 ” 的 集合 ， 这 个 集合 可 以 看 作 一 组 基 图 (eigenimage)。 然 
后 新 的 图 像 用 相对 于 这 个 基础 的 坐标 来 表示 。 对 纹理 而 言 ， 一 幅 图 像 被 分 解 为 三 个 互相 垂直 的 分 
量 ， 这 些 分 量 被 称 之 为 Wold 特征 [25]。 

在 添加 了 相关 的 反馈 机 制 后 ，Photobook 就 成 了 FourEyes[26]。 这 个 系统 不 ` 仅 给 每 幅 图 像 指定 
正 或 负 的 权重 变化 ， 而 且 对 前 面 查 询 过 的 图 像 施加 类 似 的 查询 操作 。 这 样 一 来 ， 这 个 系统 的 查询 
速度 就 相当 快 了 。 更 多 信息 请 参见 http://vismod.www.media.mit.edu/vismod/demos/photobook。 


18.3.10 MARS 
MARS (多 媒体 分 析 与 检索 系统 ) [27] 由 伊利 诺 伊 大 学 香槟 校区 开发 。 其 主要 思想 是 建立 一 
个 动态 的 特征 表示 系统 ， 这 个 系统 可 以 适合 于 不 同 的 用 户 和 不 同 应 用 环境 。 其 主要 的 手段 就 是 适 


当 的 反馈 机 制 (参见 18.4 节 )， 反 馈 主要 是 用 户 指定 的 权重 变化 。 更 多 信息 请 参见 www-db.ics.uci. 
edu/pages/research/mars.shtml . 
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18.3.11 Virage 


可 视 化 信息 检索 (Virage〉[28] 系 统 对 图 像 里 的 对 和 象 进行 操作 。 它 在 进行 一 些 预 处 理 ( 比 如 平 
滑 处 理 、 比 较 增强 ) 后 建立 一 个 图 像 索引 。 其 特征 向 量 的 一 些 细节 问题 是 保密 的 。 但 是 我 们 知道 ， 
这 个 系统 对 每 个 特征 的 计算 并 不 是 用 一 种 方法 而 是 用 多 种 方法 结合 完成 的 ， 最 后 的 特征 向 量 由 每 
个 单独 计算 出 的 特征 组 合 而 成 。 更 多 信息 请 参见 http:/www.virage.comy。 


18.3.12 VIPER 


面向 增强 检索 的 可 视 化 信息 处 理 系 统 (VIPER) 是 一 个 实验 系统 。 它 关注 用 户 指导 的 搜索 范 
围 缩小 机 制 上 。 这 涉及 合适 的 反馈 问题 。 这 个 系统 由 日 内 瓦 大 学 的 研究 人 员 开 发 。VIPER 使 用 一 
个 含有 80 000 种 特征 的 巨大 的 图 像 特征 集合 ， 这 些 特征 基于 不 同 层 次 的 颜色 、 纹 理 等 ， 也 基于 图 
像 在 不 同 层次 的 分 级 分 解 。VIPER 遵循 GPL (General Public License) 下 的 开源 软件 分 布 系统 GNU 
(Gnu’s Not Unix) 发 布 。 更 多 信息 请 参见 http://viper.unige.ch。 


18.3.13 Visual RetrievalWare 


Visual RetrievalWare 是 Convera 公司 开发 的 一 种 图 像 搜索 技术 。 其 开发 技术 来 源 于 不 同 的 政 
府 部 门 用 于 检索 标准 文档 的 技术 。 它 的 图 像 版 本 大 大 增加 了 Yahoo 的 Image Surfer 功能 .Honeywell 
得 到 了 这 项 技术 的 许可 证 。Honeywel 收集 了 上 百 万 的 和 X 光 片 ， 并 计划 用 此 技术 来 对 和 光照 片 进 
行 索引 和 检索 。 在 这 个 软件 中 使 用 的 特征 有 颜色 、 形 状 、 纹 理 、 明 上 暗 度 结构 、 颜 色 结 构 以 及 长 宽 
比 。 更 多 信息 请 参见 http://vrw.convera.com:8015/cst. ` 


18.4 相关 反馈 


相关 反馈 是 在 最 近 的 CBR 系统 中 所 使 用 的 强大 的 工具 〈 参 见 [27])。 简 单 而 言 ， 其 主要 思想 
是 将 用 户 置 于 一 个 操作 过 程 的 循环 中 , 在 这 个 过 程 中 , 检索 到 的 图 像 用 以 进一步 收敛 正确 的 结果 。 
通常 的 情形 是 由 用 户 指定 图 片 是 好 ， 是 坏 ， 还 是 无 所 谓 ， 而 系统 在 用 户 的 指导 下 更 新 各 查询 结果 
的 权重 。( 另 一 种 处 理 方式 是 将 查询 通 近 于 那些 有 正 标记 的 内 容 [29]。 一 个 更 有 趣 的 思想 是 ， 通 过 
空间 的 特征 点 的 弯曲 来 移动 每 个 数据 点 [30]。 在 后 一 种 处 理 方法 中 ， 特 征 点 随 着 高 维 空间 的 扭曲 
而 移动 ， 就 像 挤 压 凝 胶 时 镶嵌 在 其 中 的 葡萄 干 也 随 着 运动 一 样 。) 


18.4.1 MARS 


在 MARS 系统 中 [27], 指定 给 每 个 特征 点 的 权重 都 可 以 根据 用 户 的 输入 而 更 新 。 首先 , MARS 
的 作者 假定 有 很 多 种 特征 ， 比 如 说 颜色 、 纹 理 等 ， 这 些 特征 可 以 编号 为 =1~/。 对 于 每 个 特征 ， 进 
一 步 假 定 我 们 可 以 用 多 种 表示 方式 来 表示 。 例 如 ， 对 颜色 而 言 ， 我 们 可 以 使 用 颜色 直方 图 、 颜 色 
布局 、 有 瞬时 颜色 直方 图 、 主 颜色 等 多 种 表示 方式 。 假 设 对 于 每 一 个 特征 i， 有 .三 1~J; 种 表示 方式 。 
最 后 ， 对 特征 i 的 每 一 种 表示 方式 j， 有 一 个 具有 k1~Ky 个 分 量 的 特征 向 量 与 之 对 应 。 这 样 ， 最 
后 我 们 得 到 了 特征 向 量 的 分 量 ry 

每 种 特征 i 都 有 一 个 表征 其 重要 性 (权重 ) 的 系数 W， 每 个 特征 i 的 每 种 表示 方式 j 的 权重 
可 以 用 Wy 表示 ， 而 每 种 表示 方式 的 每 个 分 量 则 具有 权重 Wj。 权重 是 动态 的 ， 在 结合 了 进一步 的 
反馈 信息 后 可 以 对 这 些 权重 进行 动态 调整 。 

令 {用 为 特征 的 全 集 ， 令 R={y} 为 给 定 特征 天 的 所 有 表示 方式 的 集合 。 接 下 来 ， 就 当前 
特征 i 而 言 ， 假 定 M={my} 为 集合 R 中 各 表示 方式 的 相似 度 度量 ， 该 度量 用 于 确定 两 种 表示 方式 
的 相似 程度 。 而 且 ， 对 于 不 同 的 表示 方式 应 该 有 不 同 的 度量 标准 : 在 比较 特征 向 量 时 ， 应 该 使 用 
的 度量 标准 是 Mahalanobis 距离 ， 而 在 比较 颜色 直方 图 的 时 候 对 直方 图 相交 可 能 更 为 有 效 。 假 设 
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PARR aR ESE D, FA REET UHR — MRN (D, F, R, M) 来 表示 。 
接 下 来 我 们 看 看 在 [29] 中 介绍 的 检索 过 程 。 
1) 初始 化 权 系数 为 标准 值 : 
W; =1/1 
Ws =1/J; 
Wix =1/ Ky 
HF, 为 集合 已 中 特征 的 数目 ; 是 特征 所 的 表示 方法 的 总 数 ，Kj 是 每 个 特征 表示 向 量 ry 的 长 度 。 
2) 数据 库 中 与 查询 要 求 相似 的 图 像 首先 核 照 特征 分 量 来 定义 ; 
S(r) = my (ij, Wir). 
然后 ， 对 每 种 表示 方式 的 相似 度 度 量 值 加 权 求 和 : 
SD = > WS (ry). 
J 


3) 最 后 ， 总 的 相似 度 度量 值 $ 定义 为 : 
S= EWS). 


4) 与 检索 图 像 OHE, ERKE N 个 图 像 被 作为 检索 结果 返回 。 

5) 用 户 根据 自己 的 主观 看 法 对 每 个 返回 的 检索 结果 标记 上 高 度 相关 、 相 关 、 无 所 谓 、 不 相 
关 、 高 度 不 相关 等 反馈 标志 。 

6) 根据 用 户 的 反馈 信息 ， 更 新 各 权重 ， 重 复 如 上 过 程 。 

为 了 得 到 一 个 有 意义 的 图 像 检索 集合 ， 将 该 相似 度 度量 值 归 一 化 。 

1) 由 于 不 同 的 表示 方式 有 不 同 的 数值 范围 ， 所 以 我 们 需要 对 特征 进行 归 一 化 。 其 中 ， 既 可 
以 进行 离线 归 一 化 (内 部 归 一 化 )， 也 可 以 进行 在 线 归 一 化 (交互 归 一 化 )。 

2) 内 部 归 一 化 : 其 主要 思想 是 对 特征 表示 向 量 ry 的 每 个 分 量 ri 进行 妇 一 化 ， 以 便 对 每 个 分 
量 赋 与 同等 的 重要 性 。 对 每 个 分 量 上 对 数据 库 中 所 有 的 M 幅 图 像 求 其 平均 u 。 然 后 用 归 一 化 后 
的 结果 替代 原来 分 量 的 值 ， 从 统计 的 角度 来 看 ， 常 用 的 归 一 化 方法 如 下 式 所 示 : 


rix — Hk 
hj > ———.. 
Ok 


3) 交互 归 一 化 : 在 整体 度量 值 $ 中 ， 我 们 对 每 个 相似 度 度 量 值 S(r;) 赋 予 同 等 的 重要 性 。 我 
们 在 这 里 需要 对 数据 库 中 所 有 图 像 的 相似 度 度 量 值 9 计算 平均 jw 和 方差 cy 。 

4) 接 下 来 ， 对 于 任 一 个 新 的 查询 C， 我 们 都 需要 通过 下 式 在 线 地 替换 CO 和 数据 库 图 像 m 的 
相似 度 值 : 

Sma (ty) >eE i 

最 后 ， 权 重 的 更 新 过 程 如 下 所 示 : 

1) 评分 值 {(3，1，0，-1，-3} 对 应 于 用 户 给 出 的 从 “高 度 相 关 ” 到 “高 度 不 相关 ”的 反馈 信息 。 

2) 根据 用 户 对 图 像 的 反馈 ， 将 权重 按照 下 式 更 新 : 


W; > Wi + 评分 值 
接 下 来 ， 按 照 下 式 对 权重 进行 归 一 化 : 
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ij 
3) 将 特征 rj 标准 方差 的 倒数 赋 给 相应 的 分 量 的 权重 Wi: 
Wir = L. 
O ijk 
也 就 是 说 偏差 越 小 ， 权 重 越 大 。 
4) 最 后 ， 将 这 些 权重 归 一 化 : 





将 用 户 置 于 一 个 循环 的 操作 过 程 中 一 个 最 大 的 好 处 就 是 ， 通 过 相关 反馈 ， 用 户 在 查询 时 不 必 
给 出 完全 精确 的 初始 查询 值 。 相 关 反 馈 在 较 底层 的 特征 和 较 高 层 的 概念 之 间 建 立 一 个 更 为 精确 的 
KR. CBR 系统 就 是 采用 这 样 的 处 理 方式 改进 了 它 的 检索 性 能 。 


18.4.2 iFind 


微软 的 iFind 系统 [31] 是 明确 地 在 图 像 检 索 中 使 用 相关 反馈 机 制 的 实验 系统 。 它 力 图 通过 提取 
图 像 中 的 语义 内 容 来 捕捉 图 像 低层 次 的 特征 。 所 有 图 像 有 相关 的 关键 字 ， 基 于 这 些 关键 字 可 建立 
一 个 语义 网 络 来 对 图 像 进行 访问 ， 并 在 其 中 集成 了 一 些 低层 次 的 特征 。 每 个 关键 字 都 有 与 数据 库 
中 相关 图 像 的 链接 ， 而 每 个 链接 都 有 一 个 权重 。 在 每 次 用 户 相关 反馈 之 后 ， 相 关 性 的 程度 〈 也 就 
是 前 面 说 的 每 个 链接 的 权重 ) 都 会 被 更 新 。 

显然 ， 一 幅 图 像 可 以 和 多 个 关键 字 相 关联 ， 每 个 关联 具有 不 同 的 相关 性 程度 。 那 么 现在 的 问 
题 就 是 这 些 关 键 字 从 何 而 来 呢 ? 可 以 手动 生成 关键 字 ， 也 可 以 利用 网 络 浏览 器 从 与 图 像 相 关联 的 
AIL HTML 标记 中 检索 出 关键 字 。 


185 ”结果 的 量化 


总 体 而 言 ， 我 们 需要 一 些 简单 的 表示 图 像 搜索 引擎 的 性 能 表达 式 。 
在 信息 检索 理论 中 ， 准 确 率 《precision》 定 义 为 检索 得 到 的 相关 文档 数 与 检索 得 到 的 所 有 广 
档 数 的 比值 。 而 查 全 率 (recall) 是 用 户 最 终 检索 出 的 文档 数目 与 所 有 相关 文档 数 的 比值 。 准 确 率 
和 查 全 率 常用 于 在 图 像 检索 系统 中 报告 检索 的 性 能 。 不 过 ， 这 些 度量 值 也 受到 数据 库 大 小 、 数 据 
库 中 相似 信息 的 数目 等 因素 的 影响 。 而 且 ， 它 们 也 没有 考虑 到 模糊 匹配 或 搜索 结果 排序 等 因素 。 
我 们 可 以 把 这 两 个 值 用 式 子 定义 如 下 : 
_ 返回 的 相关 图 像 数 
EAE- “所 有 和 返 加 的 图 像 
__ 最 终 返回 的 图 像 数 
ROE Sa aE IM 
总 的 来 说 ， 我 们 将 立信 范围 放 得 越 宽 ， 允 许 返 回 的 图 像 越 多 ， 那 么 准确 率 会 越 低 ， 但 是 查 全 
率 反而 会 越 大 。 准 确 率 与 查 全 率 的 变化 曲线 称 作 接 收 端 作业 特征 曲线 (ROC 曲线 )。 这 个 曲线 在 
一 定 的 参数 范围 内 表示 了 检索 灵敏 度 和 特异 性 之 间 的 关系 。 


18.6 ”视频 查询 
对 于 各 种 查询 ， 可 以 利用 运动 作为 瞬时 变化 图 像 的 显著 特征 来 实现 视频 检索 。 在 这 里 ， 我 们 


(18.13) 
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不 准备 详细 讨论 视频 检索 ， 但 是 会 引用 文献 [32] 中 的 相关 内 容 〈 其 中 对 于 视频 检索 进行 了 很 好 的 
描述 )。 

简 而 言 之 ， 由 于 瞬时 性 是 视频 和 图 像 集 之 间 的 主要 区 别 ， 所 以 对 时 间 分 量 的 处 理 就 成 为 在 检 
索 、 浏 览 、 搜 索 和 视频 内 容 检索 工作 中 的 首要 任务 。QBIC 小 组 [21] 主 要 致力 于 对 视频 自动 理解 继 
而 产生 情节 串联 图 板 -一 一 也 就 是 所 谓 的 “ 逆 好 莱 坞 ”(inverse Hollywood) 问题 。 在 拍摄 视频 的 时 
候 ， 编 剧 和 导演 从 一 段 对 剧情 发 展 的 详细 描述 作为 开始 。 而 从 视频 理解 的 角度 来 看 ， 我 们 则 希望 
能 重 构 出 这 个 详细 的 剧情 描述 来 作为 “理解 ”视频 的 开始 。 

首先 我 们 需要 把 视频 划分 成 一 些 连续 的 镜头 ， 而 这 些 连续 镜头 大 致 包括 在 “记录 ”按钮 被 点 
击 和 被 释放 这 段 时 间 里 记录 的 视频 帧 。 视 频 转变 (如 渐 现 、 渐 隐 、 溶 解 、 擦 除 等) 往往 在 这 些 连 
续 镜头 之 间 发 生 ， 所 以 ， 对 于 连续 镜头 边界 的 检测 不 会 像 检测 “突变 ”那样 简单 。 

一 般 说 来 ， 我 们 所 处 理 的 是 数字 视频 ， 如 果 可 能 的 话 ， 我 们 希望 避免 处 理解 压缩 的 MPEG X 
件 ， 从 而 能 够 增 大 春 吐 量 。 所 以 ， 研 究 者 们 一 直 研 究 压缩 视频 。 一 个 简单 方法 是 只 部 分 解压 缩 直 
到 能 够 还 原 DC 项 即 可 ， 这 样 就 产生 一 个 只 相当 于 完全 解压 缩 得 到 文件 1/64 大 小 的 对 象 。 由 于 我 
们 必须 考虑 P 帧 、B 帧 以 及 工 辆 ， 所 以 即使 要 产生 对 最 好 的 DC 图 像 的 一 个 较 好 的 近似 ， 也 是 一 
个 复杂 的 问题 。 

一 旦 从 视频 中 提取 了 DC 帧 ， 那 么 就 可 以 应 用 许多 方法 来 寻找 连续 镜头 的 边界 。 这 些 方法 常 
用 的 典型 特征 有 颜色 、 纹 理 和 运动 向 量 〈 这 些 概念 在 物理 轨迹 研究 中 也 经 常 使 用 )。 

我 们 可 以 对 连续 镜头 进一步 进行 归 类 ， 组 成 一 系列 场景 (scene)。 一 个 场景 是 在 时 间 上 连续 
并 且 育 集 在 一 起 的 连续 镜头 的 集合 。 在 所 谓 的 电影 语法 film grammar) 中 甚至 会 包含 较 高 级 的 
语义 [34]。 诸 如 剧情 的 基本 元 素 之 类 的 语义 信息 是 可 取得 的 。 这 些 语义 信息 粗略 地 说 ) 包括 剧 
情 的 介绍 、 评 论 、 高 潮 以 及 结局 等 。 

音频 信息 对 于 场景 的 聚合 很 重要 。 在 一 个 典型 的 场景 中 ， 音 频 是 没有 断 点 的 ， 即 便 该 场景 包 
含 许多 连续 镜头 。 在 电影 制作 过 程 中 ， 一 般 的 定时 信息 也 会 包括 在 音频 中 。 

利用 目前 可 用 的 闭路 字幕 信息 , 文本 也 可 以 成 为 描述 连续 镜头 和 场景 最 有 用 的 方式 了 。 但 是 ， 
仅仅 依赖 于 文本 是 不 可 靠 的 ， 因 为 它 未 必 总 是 存在 ， 对 于 遗留 视频 而 言 更 是 如 此 。 

为 了 更 合理 、 更 简 洗 地 组 织 和 展示 情节 串联 图 板 ， 目 前 已 提出 许多 不 同 的 方案 。 最 直接 的 方 
法 莫 过 于 只 演示 一 段 关键 帧 的 二 维 数组 。 但 仅仅 是 如 何 建立 一 个 好 的 关键 帧 的 问题 仍 是 业内 激烈 
争论 的 问题 。 另 一 个 方法 就 是 每 隔 几 秒 就 输出 一 帧 。 这 种 方法 的 问题 就 是 不 会 顾及 在 两 个 较 长 时 
间 的 非 活动 剧情 之 间 是 否 有 发 生活 动 剧情 的 趋势 。 因此 ， 可 以 使 用 某 种 桶 共 方 法 来 代表 一 段 较 长 
的 时 间 ， 类 似 于 一 个 关键 帧 中 的 一 个 瞬时 时 间 。 

一 些 研 究 人 员 提 出 使 用 基于 图 形 的 方法 。 假 设 我 们 有 一 个 视频 包含 两 个 谈话 的 人 ， 分 别 是 访 
问 者 和 被 访问 者 。 一 种 恰当 的 表示 方式 是 使 用 带 箭 头 的 有 向 图 来 表示 一 个 谈话 者 到 另 一 个 谈话 者 
的 转变 。 用 这 种 方法 ， 我 们 就 能 够 获取 许多 关于 视频 结构 的 信息 ， 而 且 能 够 形成 图 形 剪 除 和 管理 
的 工具 库 。 

另外 ， 人 们 还 使 用 了 “代理 ”来 代表 场景 和 连续 镜头 。 一 个 关键 帧 集合 的 组 合 可 能 比 一 个 简 
单 的 关键 帧 序列 的 表达 能 力 更 强 ， 就 像 关键 帧 的 大 小 可 变 一 样 。 如 果 要 合理 地 理解 视频 ， 那 么 我 
们 需要 对 每 个 “快速 掠 过 ”(skimmed) 视频 关键 帧 集合 的 文本 和 声音 加 上 注解 。 

如 果 对 于 一 系列 帧 进行 特征 匹配 , 那么 帧 可 以 结合 起 来 形成 更 大 的 帧 , APER C mosaic) 
的 方法 是 很 有 用 的 。 上 述 方法 产生 的 更 大 的 关键 帧 或 许 更 加 具有 代表 性 。 

一 个 更 加 极端 的 视频 表示 方法 是 选择 〈 或 创建 ) 一 个 能 够 完全 代表 整个 影片 的 帧 。 该 帧 的 选 
择 可 以 是 基于 帧 中 的 人 物 、 动作 等 。 在 [35] 中 ,Dufaux 提出 了 一 个 基于 动作 测量 (利用 帧 间 差 异 )、 
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如 果 考 虑 到 肤色 和 面容 ， 该 算法 将 大 大 增加 那些 包括 人 物 和 肖像 的 关键 帧 的 相似 度 ， 比 如 说 
利用 特写 镜头 就 是 一 个 很 好 的 例子 。 可 以 使 用 已 标记 的 图 像样 例 来 对 肤色 进行 “学 习 ”， 而 脸 部 
的 检测 可 以 使 用 神经 网 络 来 完成 。 

图 18-19a 展示 了 从 一 部 关于 海滩 活动 的 视频 ( 见 [36]) 中 选 出 的 一 些 关键 帧 。 图 18-19b 中 的 
关键 帧 主要 是 基于 颜色 信息 选择 出 来 的 〈 但 请 注意 ， 在 截取 视频 时 由 于 光照 条 件 改变 而 导致 了 一 
些 变化 )。 









D 选 出 的 关键 帧 
图 18-19 ”数字 视频 及 其 关键 帧 , “海滩 ”视频 


当 连 续 镜头 之 间 颜 色 有 渐变 和 总 体 的 颜色 又 比较 接近 的 时 候 ， 将 会 出 现 一 个 更 加 复杂 的 问题 
(如 图 18-20a 所 示 )。 图 18-20b 中 的 关键 帧 能 充分 说 明 整 个 视频 序列 的 演变 过 程 。 








b) 选 出 的 关键 帧 
图 18-20 ”花园 视频 


其 他 的 方法 都 试图 从 人 这 个 更 有 意义 的 角度 来 处 理 视频 ， 而 不 是 使 用 较 低层 次 的 视觉 或 者 音 
频 特征 。 许 多 工作 都 是 致力 于 应 用 数据 挖掘 或 者 基于 知识 的 技术 来 把 视频 分 类 比如 运动 、 新 闻 
等 )， 然 后 再 进一步 划分 成 子 目录 〈 比 如 划分 为 足球 、 篮 球 等 目录 )。Zhou 和 Kuo[37] 对 这 些 为 视 
频 分 析 搭 建 智能 系统 的 方法 做 了 总 结 。 
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18.7 ”其 他 格式 的 查询 


利用 音频 或 者 音 视频 相 结 合 的 信息 来 更 好 地 理解 多 媒体 信息 的 内 容 是 一 个 非常 吸引 人 的 研 
究 方向 。Wang 等 人 [38] 对 使 用 音频 和 视频 提示 方面 进行 了 介绍 。He 等 人 [39] 对 教师 授课 时 幻灯 片 
的 理解 和 导航 加 以 介绍 ， 这 些 工作 基于 讲课 者 花 在 每 张 幻灯 片上 的 时 间 以 及 讲课 者 的 语调 而 进 
行 。 还 有 其 他 一 些 有 意思 的 方法 ， 如 通过 音频 检索 [40] 和 “通过 哼 唱 曲子 来 检索 ”[41]。 

其 他 一 些 特征 研究 人 员 关 注 索引 的 特征 ， 比 如 检索 动作 、 概 念 、 感 知 、 面 部 表情 等 。 显 然 ， 这 
个 领域 处 在 一 个 发 展 与 成 熟 的 阶段 ，MPEG-7 标准 的 制定 “参见 第 12 章 ) 推动 了 这 个 领域 的 发 展 。 


18.8 基于 内 容 检索 的 展望 


对 基于 内 容 检索 最 新 思想 的 概览 [42] 指 出 了 一 些 现在 和 未 来 研究 的 趋势 ， 基 于 下 面 列举 的 一 
些 方案 来 对 多 媒体 数据 进行 索引 、 搜 索 、 查 询 和 检索 : 

1) 利用 视频 特征 来 对 视频 进行 检索 。 这 些 视频 特征 有 : 图 像 颜色 和 对 象形 状 、 视 频 分 割 、 
视频 关键 帧 、 场 景 分 析 、 对 象 结构 、 运 动向 量 、 光 流 〈 从 计算 机 视觉 的 角度 而 言 )、 多 谱 线 数据 ， 
以 及 概括 数据 的 所 谓 的 “签名 ”(signature )。 

2) 时 空 查询 ， 比 如 运行 轨迹 。 

3) 语义 特征 ， 句 法 描述 符 。 

4) 相关 反馈 (信息 检索 的 常用 技术 )。 

5) 声音 ， 特 别 是 在 一 些 文档 中 使 用 的 说 话 者 的 声音 信息 。 

6) 多 媒体 数据 库 技术 ， 如 图 像 的 关系 数据 库 。 

7) 文本 、 视 觉 、 语 音信 息 的 融合 。 

8) 自动 即时 的 视频 操纵 ， 多 媒体 数据 库 允 许 用 户 编辑 的 功能 。 

9) 多 媒体 数据 安全 、 隐 藏 、 认 证 技术 〈 如 水 印 )。 

这 个 领域 的 内 容 非 常 的 丰富 ， 而 且 和 MPEG-7 的 大 致 方向 相互 配合 。 

在 另 一 个 研究 方向 ,研究 人 员 力 图 建立 一 个 搜索 框架 来 包含 更 多 的 实例 ， 如 所 有 的 “动物 ”。 
然后 ， 在 检索 关系 数据 库 的 时 候 ， 这 些 搜索 轮廓 就 和 数据 库 查 询 交流 。 对 利用 视觉 特征 的 搜索 而 
言 ， 智 能 搜索 引擎 通过 主动 学 习 来 理解 用 户 的 查询 意图 [43]。 这 个 方向 的 研究 称 做 “基于 学 习 的 
查询 ”。 

另 一 种 方法 的 目标 是 理解 人 们 根据 一 些 基 本 的 感知 如 何 定义 图 像 之 间 的 相似 性 [44]。 这 个 方 
法 中 所 用 的 功能 是 一 种 所 谓 的 “感知 相似 度 度量 ”， 在 一 系列 指定 的 相似 图 像 中 通过 学 习 找 到 最 
佳 的 特征 集合 (颜色 、 纹 理 等 ) 来 获取 “相似 性 ”。 


18.9 进一步 探索 


关于 CBIR 这 个 主题 有 一 些 不 错 的 书 [4$，46，47，48] 值 得 参考 。 

在 本 书 的 网 站 上 ， 第 18 章 的 Further Exploration 中 提供 了 一 些 有 用 的 基于 内 容 检索 的 网 址 。 
它们 有 : 

。 在 18.2 节 中 讨论 过 的 C-BIRD 的 Java applet MA. 

。 作 为 艺术 品 服务 器 的 QBIC 的 一 个 演示 版 本 。 

。 亚历山大 数字 图 书馆 、 伯 克利 数字 图 书馆 项 目 、Photobook、Visual RetrievalWare、VIPER 

和 VisualSEEk 的 演示 版 本 。 

e MediaSite 〈 现 在 已 更 名 为 Sonic Foundary Media Systems) 的 演示 版 本 。Informedia 项 目 为 

这 个 商业 系统 提供 了 功能 强大 的 搜索 引擎 。 
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e NETRA 系统 的 演示 版 本 。 其 思想 是 选择 一 幅 图 像 ， 然 后 在 图 像 上 选择 片段 ， 再 在 选择 的 
模型 上 搜索 。 

。 描 述 Virage 系统 相关 技术 的 视频 。Virage 为 Alta Vista’s Image Search 提供 搜索 引擎 。 

。 图 18-19 和 图 18-20 中 介绍 过 的 关键 帧 产生 技术 。 

。 一些 到 数字 图 像 和 视频 的 标准 集 的 链接 。 这 些 标准 集 常 用 来 对 检索 和 视频 分 割 的 程序 作 
测试 。 


18.10 %3 


1. 
2. 
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9. 


10 


特征 定位 的 本 质 是 什么 ? 相 比 传统 的 图 像 分 割 技术 而 言 ， 它 有 哪些 优 缺 点 。 

证 明 用 于 更 新 的 式 18.9 的 正确 性 ， 即 第 对 1 次 迭代 时 ， 父 场景 了 的 离心 率 EM? 可 以 从 第 大 次 
迭代 得 到 的 父 场景 j 和 子 场景 i 的 高 心率 、 质 心 、 质 量 推导 出 来 。( 提 示 : CY. CO ARE 
质心 CP 的 x，y 分量.》 


. 试用 VIPER 搜索 引擎 , 在 几 次 迭代 中 使 用 相关 反馈 来 精 化 搜索 结果 。 演示 版 本 中 提 到 了 Gabor 


直方 图 和 Gabor k. 在 相关 网 站 上 查阅 文档 来 确定 这 两 个 名 词 的 含义 , 并 简短 地 描述 它们 的 使 
用 方法 。 


.试用 在 18.9 节 中 提 到 的 实验 性 质 的 图 像 搜索 引擎 。 有 些 引 擎 能 够 给 人 很 深刻 的 印象 ， 而 大 部 


分 的 搜索 引擎 在 数据 范围 较 大 时 会 变 得 不 可 靠 。 


， 设 计 一 个 图 像 描述 的 文本 注解 分 类 法 ， 可 以 使 用 Yahoo! 的 分 类 集 开 始 工作 。 
， 调查 几 个 网 站 的 图 像 标题 。 你 认为 文字 数据 对 于 确定 图 像 的 内 容 有 多 大 用 处 ? 〈 一 般 而 言 ， 


搜索 系统 使 用 “ 取 词 根 ”的 方法 ， 以 便 去 除 词 中 夹杂 的 时 态 、 大 小 写 变 化 和 数字 ， 取 词根 可 以 
取出 句子 的 主干 。) 


. 至少 列 举 3 种 音频 分 析 辅 助 视频 检索 系统 相关 任务 的 方式 。 
.假定 我 们 粗略 地 定义 一 个 颜色 直方 图 ， 每 个 存储 单元 使 用 8 位 ， 其 中 红色 和 绿色 分 别 用 3 位 


存储 ， 剩 下 2 位 存储 蓝 色 。 为 这 个 直方 图 建立 一 个 合适 的 结构 ， 并 利用 你 读 入 的 图 像 填 充 这 个 
直方 图 。 在 本 书 的 网 站 上 提供 了 读 取 图 像 的 Visual C++ 的 模板 代码 (“Sample Code” FH 
sampleCcode .zip 文件 )。 

试 着 建立 在 18.2.5 节 中 介绍 的 纹理 直方 图 。 你 可 以 按照 该 节 中 介绍 的 步骤 对 一 些小 图 像 进行 
处 理 。 为 了 方便 起 见 ， 你 可 以 使 用 MATLAB。 


， 描述 你 如 何 从 一 个 图 像 数据 库 中 检索 出 具有 2D“ 砌 砖 模式 ”(brick patem) 的 图 像 。 假 定 


“ 砖 块 ” 的 颜色 是 黄色 ， 砖 闻 “ 空 阶 ” 的 颜色 是 蓝 色 必须 讨论 你 的 方法 的 局 限 性 和 可 能 的 
扩展 )。 

(a) 仅 使 用 颜色 。 

(b) 仅 使 用 基于 边缘 的 纹理 度量 。 

Cc) 使 用 颜色 、 纹 理 、 形 状 。 


， 静态 图 像 和 视频 之 间 最 主要 的 区 别 就 是 视频 中 有 运动 。 视 频 中 CBR 一 个 重要 的 部 分 就 是 运 


动 估计 例如 运动 的 速度 和 方向 )。 如 果 视 频 是 MPEG 视频 而 不 是 解压 缩 的 视频 ， 请 描述 如 
何 从 这 样 一 个 视频 剪辑 中 估计 某 个 对 象 ( 比 如 说 视频 中 出 现 的 某 辆 车 的 运动 。 


， 人 牛顿 指 出 ， 颜 色 是 三 维 的 。 总 体 来 看 ， 我 们 使 用 了 很 多 不 同 的 颜色 空间 ， 每 个 颜色 空间 都 有 


一 个 亮度 轴 和 两 个 基本 颜色 轴 ， 只 是 不 同 颜色 空间 轴 的 类 型 不 一 样 而 已 。 
如 果 使 用 一 个 色 度 的 二 维 空间 〈 如 式 〈4.7) 所 定义 的 )， 我 们 将 只 能 使 用 这 个 空间 的 前 两 维 





{x，y}。 为 一 些 图 像 设 计 2 维 颜色 直方 图 ， 并 对 它们 的 颜色 直方 图 相交 。 将 这 种 方法 得 到 的 
相似 度 度 量 值 与 使 用 3 维 的 颜色 直方 图 得 到 的 结果 相 比 较 ， 对 不 同 的 分 辨 率 都 作 一 个 比较 。 
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通过 比较 结果 回答 : 一般 来 说 ， 我 们 是 否 有 必要 保存 所 有 的 三 维 信息 ? 


13. 使 用 一 些 低层 次 的 图 像 特 征 来 实现 一 个 图 像 搜索 引擎 ， 例 如 可 以 用 颜色 直方 图 、 颜 色 和 矩阵 、 
纹理 等 特征 。 建 立 一 个 至 少 包含 500 幅 图 像 〈 可 分 为 10 个 不 同 的 类 别 ) 的 图 像 数据 库 。 分 别 
使 用 单 特征 和 组 合 特征 进行 检索 。 对 每 个 类 别 而 言 ， 根 据 准确 率 和 查 全 率 确定 哪 种 特征 组 合 


具有 最 好 的 检索 性 能 。 
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DA (Digital-to-Analog ) converter， 数 / 模 转换 器 ，135 
DAI (DMIF Application Interface, DMIF 应 用 程序 接口 )，463 
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Decoder mapping “解码 器 映射 )，148 
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Differential coding 〈 差 分 编码 )，150，191 
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Cool Edit, 15 
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Sound Forge, 15 
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Half-pixel precision 〈 半 像素 精度 )，304 
Halftone printing 〈 网 板 打印 )，63 
Harmonics (和 声 )，128 
Hartley AFAI, 168 
HDTV (High Definition TV， 高 清晰 度 电视 )，122，124 
Hierarchical JPEG (分 级 JPEG), 263 
Homogeneous coordinate system 〈 齐 次 坐标 系统 ) 353 
Horizontal retrace 〈 水 平 回 扫 )，114 
HTML (Hyper Text Markup Language， 超 文本 标记 语言 )，10， 
35, 56, 71 
HTTP (HyperText Transfer Protocol， 超 文本 传输 协议 )，9， 
422，457 
Huffman coding (HARE), 173 
optimality 《最 优 性 )，175 
prefix property (ARH), 175 
procedure (FE), 177 
tree ($$), 177 
Human vision (人 的 视觉 )，84 
Hybrid excitation vocoder (混合 激励 声音 合成 器 )，389 
MBE (Multi-Band Excitation， 多 频带 激励 )，389 
MELP (Multiband Excitation Linear Predictive， 多 频带 激 
励 线性 预测 )，386，391 
Hypermedia 〈( 超 媒体 )，7 
Hypertext 〈 超 文本 )，7 


IDCT (inverse Discrete Cosine Transform， 逆 离散 余弦 变换 )，208 
IETF (Internet Engineering Task Force, ASM LES), 
425, 448, 463 
IGMP (Internet Group Management Protocol， 因 特 网 组 管理 协 
议 )，449 
Image 图像》 
24-bit (24 位 )，64 
8-bit (8 位 )，65 
data type (数据 类 型 )，64 
descriptor〔 描 述 符 )，513 
Fireworks editing (Fireworks 编辑 )，15 
formation 《图 像 的 形式 )，85 
histogram (HAA), 169 
monochrome 〈 单 色 )，61 
Photoshop editing (Photoshop 编辑 )，15 


resolution (分 辩 率 )，61 
retrieval ÈR), 511 
Information theory 〈 信 息 论 )，168 
Intellectual Property Management and Protection (IPMP, 知识 产 
权 管 理 和 保护 )，369 
Interactive TV (ITV, ZEREA), 464 
Interlaced scanning (隔行 扫描 )，113 
Interlacing (4T), 71 
Internet telephony (因特网 电话 )，455 
IP (Internet Protocol， 网 际 协 议 )，424，447 
IP-multicast (IP 多 播 )，447 
IPv4 (IP version 4, IP Æ 4), 424, 448 
IPv6 (IP version 6, IP RA 6), 425, 447 
ISDN (Integrated Services Digital Network， 综 合 业务 数字 网 
络 )，427 
JBIG (Joint Bi-level Image Experts Group, 
组 )，282 
JBIG2, 282 
Jitter (Fa), 444, 462 
IVT (Joint Video Team， 联 合 视频 小 组 )， 参 见 1.264, 357 
JPEG (Joint Photographic Experts Group， 联 合 图 像 专家 组 )， 
75，253，255 
DCT, 255 
entropy coding (HF), 259, 261- 
main steps ($F), 253 
mode 〈 模 式 )，262 
quantization 〈 量 化 )，255 
zigzag scan (Z 字 扫描 )，259 
JPEG-LS, 277 
JPEG2000, 265 


合 二 值 图 像 专家 


KLT (Karhunen-Loéve transform) (Kathunen-Loève 变换 ), 207 


LAB color model (LAB BRE MAY), 98 
LAN (Local Area Network) (LAN (AIR )), 424, 430 
Latency (HEIR), 443, 461 
Locales (3%) 
definition GEX), 523 
locale generation (场景 生成 )，526 
object matching (对 象 匹配 )，529 
object modeling (对 象 建 模 )，528 
texture analysis 纹理 分 析 )，528 
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tile classification (4%), 524 keyboard (#4), 139 
video locales 〈 视 频 场景 )，533 patch 〈 编 配 程 序 )，140 
LOCO-I (LOw COmplexity LOssless COmpression for Images, system messages (RAWA), 143, 146 
图 像 的 低 复杂 度 无 损 压 缩 )，277 velocity (E/E), 140, 144 
Lookup Table (LUT， 查 找 表 )，66-68 voice messages〈 声 部 消息 )，144 
Lossless image compression (EREE) . 191 MiniDV, 117 
Lossless JPEG 《无 损 JPEG), 193, 264 MMR (Modified Modified Read) algorithm (MMR (修订 修改 
encoder 《编码 器 }，194 读 ) 算法 )，344 
predictor 预测 器 )，193 MMS (Multimedia Messaging Service， 多 媒体 消息 服务 )，507 
Lossy image compression 《有 损 图 像 奈 缩 )，199 Model-based coding 〈 基 于 模型 的 编码 )，283 
Low-pass filter 〈 低 通 滤波 器 )，136 Modem 〈 调 制 解 调 器 )，426 
LPC (Linear Predictive Coding， 线 性 预测 编码 )，380，388 Motion Compensation (MC， 运 动 补偿 )，288，289，337 
LPC-10, 381 backward predicion《〈 后 向 预测 )，290 
Luminance (亮度 )，104 forward prediction 《前 向 预测 )，290 
LZW (Lempel-Ziv-Welch) , 71, 73, 78, 181 Motion estimation 〈 运 动 估 计 )，288 
Motion JPEG, 262 
Macroblock ( 宏 块 )，289 Motion vector (运动 向 量 )，290 
Macromedia Director 40 2D logarithmic search (2D 对 数 搜索 )，291 
3D Sprite (3D 分 镜 )，45 hierarchical search 〈 分 层 搜索 )，293 
animation (动画 )，42 sequential search 《顺序 搜索 )，290 
control (控制 )，43 MPEG (Moving Pictures Experts Group, 运动 图 像 专家 组 ), 312 
Lingo script (Lingo 脚本 )，44 MPEG audio compression (MPEG 音频 压缩 )，395 
object (TR), 46 bark 《音频 单位 })，402 
Macromedia Flash, 46 bit allocation (位 的 分 配 )，409 
animation 《动画 }，48 bit reservoir (AZW), 412 
symbol (符号 )，47 critical band〈 临 界 频带 )，400 
window (O), 46 equal-loudness curves 〈 等 响 度 曲线 )，396 
MAN (Metropolitan Area Network， 城 域 网 )，430 frequency masking (HUE), 396, 398 
MBone, 448 MDCT (Modified Discrete CosineTransform, #1] BRR 
Mean absolute difference 〈 平 均 绝 对 误差 )，290 弦 变 换 )，411 
Media objects (HEARTH), 332 MNR (Mask-to-Noise Ratio, HRALI), 410 
Media-on-Demand (MOD, HAH), 464, 465 MP3 (MP3) ,405,411,412 
Median-cut algorithm 〈 中 值 区 分 算法 )，69 MPEG layers (MPEG 的 层 )，405 
MIDI (Musical Instrument Digital Interface， 乐 器 数字 化 接口 )， Layer 1 (3812), 405 
139 Layer 2 (#822), 405, 410 
banks 《音色 库 )，140 Layer3 (第 3 层 )，405，411 
channel GH), 140 psychoacoustics 〈 心 理 声 学 )，395 
channel messages 〈 通 道 消息 )，143 scale factor band〈 比 例 因子 频带 )，412 
channel mode 〈 通 道 模式 )，145 SMR (Signal-to-Mask Ratio， 信 号 速 掩 比 )，409 
channel pressure (channel pressure 消息 )，144 temporal masking (IY IE)WEHE), 403 
conversion to WAV (转换 到 WAV), 147 threshold of hearing (WREE), 398 


key pressure (key pressure 消息 )，144 MPEG working model (MPEG 工作 模型 ) 








SM (Simulation Model， 仿 真 模型 )，363 
TM (Test Model， 测 试 模型 )，363 
VM (Verification Model]， 验 证 模型 )，363 
XM (eXperimentation Model， 实 验 模型 )，363 
MPEG-1 (MPEG-1), 312 
B-frame (B Wī), 313 
bitstream 《位 流 )，318 
block layer (REZ), 319 
D-frame (D W), 319 
differences from H.261 (45 H.261 的 区 别 ) ,315 
Group of Pictures (GOPs) layer (GOP (AIHA) Æ), 318 
I-frame (TWH), 313 
macroblock layer〔 宏 块 层 )，319 
motion compensation (运动 补偿 )，313 
P-frame (P 帧 )，313 
performance of (HERE), 317 
picture layer (HIE), 318 
prediction (Fi), 313 
quantization (量化 )，316 
sequence layer 《序列 层 )，318 
slice〈 宏 块 片 )，315 
slice layer〈 宏 块 片 层 )，319 
MPEG-2 (MPEG-2)，319 
alternate scan 《交替 扫描 )，322 
data partitioning 《数据 划分 )，329 
differences from MPEG-1 (45 MPEG-1 的 区 别 )，329 
hybrid scalability 〈 混 合 可 伸缩 性 )，328 
interlaced video〈 隔 行 扫描 视频 )，320 
modes of prediction 〈 预 测 模式 )，321 
profile〈 规 格 )，320 
Program Stream (程序 流 )，329 
SNR scalability (SNR 可 伸缩 性 )，324 
spatial scalability (空间 可 伸缩 福 )，326 
temporal scalability (时 间 可 伸缩 性 )，326 
Transport Stream 〈 传 送 流 )，329 
MPEG-2AAC (Advanced Audio Coding) (MPEG-2AAC (高 级 
音频 编码 ))，412 
low complexity profile 〈 低 复杂 度 规格 )，413 
main profile 〈 主 要 规格 )，413 
PQF (Polyphase Quadrature Filter) bank (PQF 《多 相 积 分 
WER A), 414 
scalable sampling rate profile 〈 可 伸缩 采样 率 规 格 )，413 
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TNS (Temporal Noise Shaping) tool (TNS (时 域 噪声 整 
7B), 413 
MPEG-21 (MPEG-21), 369, 415 
MPEG-4 (MPEG-4), 332, 335 
binary shape〈 二 元 形状 )，343 
body object (身体 对 象 )，354 
Delaunay mesh (Delaunay 网 络 )，350 
face object〈 人 脸 对 象 )，354 
gray-scale shape 〈 灰 度 形状 )，344 
Part 10,also see H.264 (Part 10， 参 见 H.264), 358 
uniform mesh 〈 均 匀 网 络 )，349 
wavelet coding 〈 小 波 编码 )，346 
MPEG-4 AAC (Advanced Audio Coding) (MPEG-4 AAC (高 
REAM), 414 
BSAC (Bit-Sliced Arithmetic Coding, 比特 分 片 算术 编码 )， 
414 
perceptual coders〈 感 知 编码 器 )，414 
perceptual noise substitution 《感知 噪声 置换 )，414 
SAOL (Structured Audio Orchestra Language, 结构 化 音频 
命令 语言 )，415 
SNHC ( Synthetic/Natural Hybrid Coding) (SNHC (合成 / 
自然 混合 编码 ))，414 
structured coder〔 结 构 编码 器 )，414 
TTS 《Text-To-Speech， 文 语 转换 )，414 
MPEG-7 (MPEG-7), 361 
Description Definition Language DDL， 描述 定义 语言 )， 
368 
Description Scheme DS， 描述 模式 )，365 
descriptor 描 述 子 )，363 
MPEG-7 audio (MPEG-7) 音频 ，415 
MPEG-] (MPEG-J), 333 
MPEGlet (MPEGlet), 333 
Multimedia 〈 多 媒体 )，3 
history of (HE), 5 
projects (MH), 5 
research 《研究 )，4 
tools (IR), 14 
Multimedia authoring (E HERE), 17, 20 
Authorware (Authorwarer), 17 
automatic authoring ( 自动 编著 )，33 
Director (Director), 17 
Dreamweaver (Dreamweaver), 51 
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Flash (Flash), 17 
Quest (Quest), 17 
technical issues (RA), 31 
tools (TA), 37 

Multimedia metaphors 〈 多 媒体 模式 )，21 
card/scripting metaphor 《卡片 /脚本 模式 )，22 
cast/score/scripting metaphor (角色 /乐谱 /脚本 模式 )，22 
frames metaphor (框架 模式 )，22 
hierarchical metaphor (层次 模式 )，21 
iconic/flow-control metaphor ( 图标/ 流 控制 模式 )，21 
scripting metaphor 〈 脚 本 模式 )，21 
slide show metaphor 〈 约 灯 片 显示 模式 )，21 
Multimedia presentation 《多 媒体 展现 )，25 
graphics style 《图形 风 格 })，25 
sprite animation《〈 分 镜 《〈 子 图 像 ) 动画)，27 
video transition〈 视 频 切 换 )，28 

Multimedia production〈 多 媒体 作品 )，23 
flowchart phase (流程 图 阶段 )，24 
prototyping and testing 〈 构 建 原型 和 测试 )，24 
storyboard 〈 故 事项 )，24 

Multipath Fading (多 经 衰减 )，494 
Rayleigh fading (Rayleigh 衰减 )，494 
Rician fading (Rician BW), 494 

Multiple Protocol Label Switching MPLS) (多 重 协议 标记 交换 

(MPLS)), 446 

Multiplexing 〈 多 路 复 用 )，425 . 
DWDM (Dense WDM， 秽 密 波 分 多 路 复 用 )，426 
FDM (Frequency Division Multiplexing， 频 分 多 路 复 用 )， 

425 


TDM (Time Division Multiplexing， 时 分 多 路 复 用 )，426 © 


WDM( Wavelength Division Multiplexing, 波 分 多 路 复 用 )， 
426 

WWDM (Wideband WDM， 宽 带 波 分 多 路 复 用 )，426 
Multiresolution analysis (多 分 辨 率 分 析 )，223，225 
Multisampling 〈 多 采样 )，142 
Munsell color naming system (Munsell 颜色 命令 系统 )，100 
MUSE (Multiple sub-Nyquist Sampling Encoding, # FAEM 

特 采 样 编码 )，122 

Music sequencing 〈 音 序 )，14 

Cakewalk,14 

Cubase,14 

Soundedit,15 


Network (W) 
Application Layer (应 用 层 )，422 
connection-oriented 〈 面 向 连接 的 )，423 
connectionless 〈 无 连接 )，424 
Data Link Layer (数据 链 路 层 )，421 
Network Layer (网 络 层 )，421 
Physical Layer “物理 层 )，421 
Presentation Layer (#7), 422 
Session Layer (会话 层 )，421 
Transport Layer〔 传 输 层 )，421 
Network Address Translation (NAT， 网 络 地 址 短 译 》，425 
NMT (Nordic Mobile Telephony)， 北 欧 移 动 电话 系统 )， 
480 
NTSC (National Television System Committee， 美 国 国家 
电视 系统 委员 会 )，88,94,312 
Nyquist (i) 
frequency (频率 )，129 
rate〔 比 率 )，128,149,158 
theorem 《定理 )，128,427 
Object-based visual coding (基于 对 象 的 视觉 编码 )，335 
OC (Optical Carrier， 光 载波 器 )，429 
Octave (/\ BEB), 128 
OFDM (Orthogonal Frequency Division Multiplexing, IE 
HS BA), 492 
ONU (Optical NetworkUnit， 光 纤 网 络 单元 )，440 
Optimal Work-Ahead Smoothing Plan (最 佳 超前 流畅 设 
W), 473 
Orthogonal CEZ), 216 
Orthonormal (REZ), 216 
basis (%Æ), 230 
OSI (Open Systems Interconnection， 开 放 式 系统 互 连 )， 
421 oo 
Out-of-gamut color ( 超 光谱 颜色 )，95 
Packet fragmentation (4#), 424 
Padding CAZ), 338 
Horizontal repetitive padding 〈 水 平 重复 填充 )，339 
Vertical repetitive padding (EH BRIA), 339 
PAINT (PAINT), 78 
PAL (Phase Alternating Line, 47849), 94,119,312 
Palette animation 〈 调 色 板 动画 )，68 
PAN (Personal Area Network， 个 人 区 域 网 络 )，432 
PCM (Pulse Code Modulation, ， 脉 冲 编码 调制 )， 





147-150,374 

PCN (Personal Communications Network, 个 人 通信 网 络 )， 
479 

PCS (Personal Communication Services， 个 人 通信 服务 )，479 

PDA (Personal Digital Assistant， 个 人 数字 助理 )，479,507 

PDC (Personal Digital Cellular， 个 人 数字 峰 窝 )，479 

PDF (Portable Document Format， 便 携 式 文档 格式 )，78 

Pel (Pel), 61 

Perceptual nonuniformity《 感 知 不 一 致 )，134,161,400,446 

Pervasive computing 〈 普 适 计算 )，492，507 

Phase Modulation 〈 相 位 调制 )，426 

PICT, 78 

Pitch (ÈW), 128, 139 

Pixel (RÆ), 61 

Pixel clock CART, 116 

PNG (Portable Network Graphics， 便 携 式 网 络 图 形 )，76 
alpha-channel (cx 通道)，77 

Polyphony《〈 多 音 )，140 

Post Compression Rate Distortion (PCRD, 压缩 后 比例 失真 ), 272 


PostScript, 78 
POTS (Plain Old Telephone Service, 普通 老式 电话 服务 ), 455, 
482 
PPM, 79 
Precision 〈 准 确 率 )，541 
Predictive coding 〈 预 测 编码 )，1S4 
lossless〈 无 损 )，151 
lossy〈 有 损 )，151 
Prioritized delivery (具有 优先 级 的 发 送 )，447 
Profile (规格)，356 
Progressive JPEG 《渐进 式 JEPG)，262 
Progressive scanning 《渐进 扫描 )，113 
PSTN (Public Switched Telephone Network， 公 共 交 换 电 话 网 
络 )，434，455，456 


QAM (Quadrature Amplitude Modulation, EZ REMH), 426, 
429，440 

QCIF〈Quarter-CIF， 四 分 之 一 帧 像素 CIF), 122 

QPSK (Quadrature Phase-Shift Keying， 正 交 相 移 键 控 )，426， 
440 

Quadrature modulation 〈 正 交 调 制 )，117 

Quality of Service (QoS) (服务 质量 (QoS)), 424, 443, 445, 


451, 453, 461-463 


QoS for IP (P 服务 质量 )，446 


Quantifying search results 〈 量 化 搜索 结果 )，541 
Quantization 〈 量 化 )，128，255 


decision boundary (判定 边界 )，148 
distortion (KH), 155 

error (RÆ), 132, 155 

linear format 〈 线 性 格式 )，133 

noise (MEF), 132 

nonuniform 〈 非 均匀 )，133 

nonuniform quantizer 〈 非 均匀 量化 器 )，204 


companded quantizer (压缩 扩展 量化 器 )，205 


399 


Lloyd-Max quantizer (Lloyd-Max 量化 器 )，204 


reconstruction level (H#U/#), . 148 

uniform (494]), 133 

uniform scalar quantizer (均匀 标量 量化 器 ) 201 
midrise〈 中 高 )，201 
midtread 〈 中 宽 )，201 

vector quantization 〈 向 量 量 化 )，206 
codebook (A), 206 


Quantizer (量化 器 ) 


backward adaptive〈 后 向 自 适应 )，376 
Jayant, 377 
Lioyd-Max, 154 


Querying on video 〈 视 频 查 询 )，542 


Rate-distortion theory (比率 失 真理 论 )，200 


rate-distortion function〈 比 率 失 真 函数 )，200 


Recall ( 查 全 率 )，541 

Reference frame 〈 参 考 帧 )，290 

Region of Interest (ROI， 感 兴趣 区 域 )，266，275 
Relevance feedback (4H Rift), 539 

Retina 〈 视 网 膜 )，84 

RGB, 100, 363 

RGB to CMY (RGB 到 CMY), 101 

RLC (Run-length Coding， 游 长 编码 )，171，259 
Rods 柱状 细胞 )，84 

RSVP (Resource ReSerVation Protocol， 资 源 预 留 协议 )，451 
RTCP (Real Time Control Protocol， 实 时 控制 协议 )，451 
RTP (Real-time Transport Protocol， 实 时 传输 协议 )，449 
RTSP (Real Time Streaming Protocol， 实 时 流 协议 )，453，454 
Run-length Encoding (RLE， 游 长 编码 )，78，259 
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RVLC (Reversible Variable Length Code) (RVLC (可 逆 变 长 编 
>), 498 


S-Video, 112, 113 
SA-DCT (Shape Adaptive DCT) (形状 自 适 应 DCT), 341, 342 
Sampling (RFE), 127 
alias frequency (3), 129 
fixed rate (HERE), 129 
folding frequency〈 折 线 频 率 )，129 
frequency 〈 频 率 )，127 
nonuniform 〈 非 均 邹 )，128 
rate (Œ), 128 
true frequency (真实 频率 )，129 
uniform〔 均 匀 )，128 
SAP (Session Announcement Protocol， 会 话 通告 协议 )，458 
SDH (Synchronous Digital Hierarchy， 同 步 数字 体系 )，429 
SDP (Session Description Protocol， 会 话 描述 协议 )，459 
SDTV (Standard Definition TV， 标 准 清晰 度 电 视 )， 参 见 
HDTV，124 
SEAM (Scalable and Efficient ATM Multicast， 可 扩展 的 有 效 
ATM 多 播 )，462 
SECAM (Systeme Electronique Couleur Avec Memoire， 顺 序 传 
送 与 存储 彩色 电视 系统 )，94，119 
Sequencer〔 音 序 器 )，139，143 
Sequential JPEG (MUFF JPEG), 262 
Set-top Box (STB) 机顶盒 (STB)), 464, 472 
Shannon-Fano algorithm 〈 香 农 - 凡 诺 算法 )，171 
Shape coding〈 形 状 编码 )，343 
SIF (Source Input Format， 源 输入 格式 )，312 
SIP (Session Initiation Protocol， 会 话 启动 协议 )，456 
SMART (Shared Many-to-many ATM Reservations， 共 享 多 对 
多 ATM 预 留 )，462 
SMIL (Synchronized Multimedia Integration Language， 同 步 多 
媒体 集成 语言 )，12 
SMPTE (Society of Motion Picture and Television Engineers， 美 
国电 影 电视 工程 师 学 会 )，88，94 
SMPTE-170M, 88 
SMS (Short Message Service， 短 消息 服务 )，482 
SNR (Signal-to-Noise Ratio， 信 品 比 )，131，430 
SONET (Synchronous Optical NETwork, 同步 光纤 网 络 ), 428, 
Sound (声音 ) 
card( 卡 )，139 


digitization 〈 数 字 化 )，127 
wave ( 波 )，126 
Spatial (空间 ) 
domain 〈 域 )，191 
frequency〔 频 率 )，75，105 
redundancy (TR), 254, 288 
Spectral Power Distribution (SPD ， 光 谱 能 量 分 布 )， 参 见 
Spectrum, 82 
Spectrophotometer 〈 分 光 光 度 计 )，82 
Spectrum (tif), 82 
locus (轨迹 )，92 
SPIHT (Set Partitioning in Hierarchical Trees， 层 次 树 的 集合 划 
分 )，241，247 
Spread spectrum (3°31), 483 
direct sequence (H4), 484 
frequency hopping (BAS), 483 
Sprite (FER), 347 
coding (4963), 347 
SQNR (Signal to Quantization Noise Ratio， 信 号 量化 噪声 比 )， 
131 
sRGB (Standard RGB， 标 准 RGB)，89，108 
Standard Generalized Markup Language (SGML, 标准 通用 标记 
语言 )，9 
Static texture coding (静态 纹理 编码 )，346 
STM (Synchronous Transport Module， 同 步 传送 横 块 )，429 
Streaming media ( 流 媒体 )，453 
streaming audio 〈 音 频 流 )，453 
streaming video (HAR), 453 
STS (Synchronous Transport Signal， 间 步 传输 信号 )，429 
Subband 〈 子 带 )，234 
Surface spectral reflectance (表面 光谱 反射 )，85 
Switching (交换 )，434 
cell relay (ATIM)〈 信 元 中 继 (ATM)), 435 
circuit switching〈 电 路 交换 )，434 
frame relay (HIPH), 435 
packet switching 〈 包 交换 )，434 
Sync skew 〈 同 步 偏 离 )，444 
Synthesizer (合成 器 )，139，142 
Synthetic object coding 《合成 对 象 编码 )，349 
Synthetic sound 《合成 声音 )，137 


TACS (Total Access Communication System， 全 访问 通信 系 
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%), 480 
Target frame ( ARW), 289 
TCP (Transmission Control Protocol， 传 输 控 制 协议 )，423 
Acknowledgement (ACK) (确认 〈ACK))，423 
retransmission timeout 〈 重 传 超时 )，423 
window (W0), 423 
TCP/IP protocol (TCP/IP 协议 )，422 
TDMA (Time Division Multiple Access， 时 分 多 址 )，481 
Television systems 《电视 系统 ) 
NTSC (National Television System Committee， 国 家 电视 
委员 会 系统 )，113，116 
PAL (Phase Alternating Line， 逐 行 倒 相 )，119 
SECAM (Systeme Electronique Couleur Avec Memoire, Mi 
序 传送 与 存储 彩色 电视 系统 )，119 
Temporal redundancy (MERITER), 289 
Texture (E) 
analysis 《分 析 )，517 
coding 《编码 )，341 
layout〈 布 局 )，517 
TIFF (Tagged Image File Format， 标 记 图 像 文件 格式 )，77 
Timbre (音色 )，140 
Token ring (SAIR), 433 
Transducer (传感器 )，126 
Transform coding 〈 变 换 编码 )，207 
Transmission rate control (传输 率 控制 )，473 
Tristimulus values〈 三 色 值 )，91 
Two Sided Geometric Distribution (TSGD)〈 双 面 几何 分 布 
(TSGD)), 281 


u-law (also see p-law) (ut), 134, 135, 137 
Ubiquitous computing (FG), 492, 507 
UDP (User Datagram Protocol， 用 户 数据 报 协议 )，424 


Variable-length Coding (VLC， 变 长 编码 )，167，171，306 
Vertical retrace (32 HJBI39), 114 
Video bitrates 〈 视 频 码 率 )，459 
ABR (Available Bit Rate， 可 用 码 率 )，459 
CBR (Constant Bit Rate， 人 恒定 码 率 )，459，472 
nrt-VBR (non real-time Variable Bit Rate， 非 实时 可 变 码 
率 )，459 
tt-VBR (real-time Variable Bit Rate， 实 时 可 变 码 率 )，459 
UBR (Unspecified Bit Rate， 未 定 码 率 )，459 


VBR (Variable Bit Rate， 可 变 码 率 )，459，472 
Video broadcasting 《视频 广播 )，465 

Greedy Equal Bandwidth Broadcasting (GEBB， 贫 禁 等 带 

宽广 播 )，467 

harmonic broadcasting (WW #8), 468 

pagoda broadcasting 〈 宝 塔 广播 )，470 

pyramid broadcasting 〈 人 金字 塔 广播 )，466 

staggered broadcasting (交错 广播 )，465 

stream merging 〈 流 合并 )，470 
Video card (HMF), 61 
Video conferencing (WAR), 295, 303, 360 
Video editing 视频 编辑 )，15 

After Effects, 16 

Final Cut Pro, 16 

Premiere, 15 
Video Object (VO， 视 频 对 象 )，334 
Video Object Layer (VOL， 视 频 对 象 层 )，334 
Video Object Plane (VOP， 视 频 对 象 平面 )，335 
Video Signals (视频 信号 )，112 
Video-object Sequence (VS， 视 频 对 象 序列 )，333 
Video-on-Demand (VOD， 视 频 点 播 )，443，464，465 
Vocoder (BARE), 378 

CELP (Code Excited Linear Prediction, 码 激励 线性 预测 )， 

383 

channel vocoder〈 通 道 声音 合成 器 )，378 

formant vocoder 〈 共 振 峰 声音 合成 器 )，380 

LPC (Linear Predictive Coding， 线 性 预测 编码 )，380 

phase insensitivity (相位 不 敏感 )，378 
VoIP (Voice over IP, IP 电话 )，455 
VRML (Virtual Reality Modelling Language， 虚 拟 现 实 建 模 语 

言 )，5S1 

animation and interaction (动画 和 交互 )，S$4 

history (历史 )，51 

overview 《概述 )，51 

shapes 《有 形状 )，52 

specifics (规范 )，54 
W3C (world Wide Web Consortium， 万 维 网 协会 )，8，368 
WAN (Wide Area Network， 广 域 网 )，424，430，434 
WAP (Wireless Application Protocol， 无 线 应 用 协议 2，493 
Wave table (波形 表 )，137 

data 《数据 )，142 
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file CXF), 139 IEEE 802.11, 492 
synthesis (Æ), 138 IEEE 802.11a, 492 

Wavelength dominant (ŁK), 93 IEEE 802.11b, 492 

Wavelet (3k), 222 IEEE 802.112, 493 
admissibility condition (ŒA &4F), 229 Wireless PAN (WPAN, ARTA RMS), 432 
analysis filter ( 4} #7 3#iK), 232 WME (Windows Meta File, WMF #3), 60, 78 
basis (Æ), 230 WWW (World Wide Web, JHR), 8, 71, 332, 462 
biorthogonal (HEZE), 232 
compact support (RBH), 232 XML (Extensible Markup Language, 可 扩展 标记 语言 ;1，11， 
mother wavelet (hW), 229 361, 368 
synthesis filter 〈 合 成 滤波 器 )，232 XYZ to RGB (XYZ 到 RGB), 97 

WCDMA (Wideband CDMA， 宽 带 CDMA)，488，489，491 

Weber’s Law〔 韦 伯 定 律 )，133 YCbCr, 107, 120, 363 

White-point correction (A ASFIE), 96 YIQ, 104, 105, 254 


Wireless LAN (WLAN， 无 线 局 域 网 )，432，488，492 YUY, 104, 254 
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